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为 何 写 作 本 书 


近年 来 ， 作 为 一 项 狐 兴 的 图 数据 学 习 技术 ， 图 神经 网 络 (GNN) 受到 了 非常 广泛 的 
关注 。2018 年 年 末 ， 及 生 了 一 件 十 分 有 趣 的 事情 ， 芒 领域 同时 及 表 了 三 扁 综 述 关 型 论文 ， 
这 种 “不 约 而 同 ? 体 现 了 学 术 界 对 该 项 技术 的 认可 。 事 实 上 ， 在 2019 年 的 各 大 顶级 学 术 会 议 
上 ,与 图 神经 网 络 有 关 的 论文 也 占据 了 相当 可 观 的 份额 。 相 信和 在 未 来 几 年 ， 这 种 流行 的 趋 


势 会 只 增 不 减 。 


图 神经 网 络 技术 的 出 现 有 其 必然 性 和 重要 性 。 在 深度 神经 网 络 技术 兴起 的 前 几 年 ， 图 
像 、 语 音 、 文 本 等 形式 的 数据 都 能 都 能 在 深度 学 习 中 被 很 好 地 应 用 ， 并 获得 了 十 分 好 的 效 
果 。 这 促使 大 量 的 相关 应 用 进入 了 实用 阶段 ， 如 入 脸 识别 、 语 音 助手 、 机 器 翻译 等 。 尽 管 
如 此 ， 深 度 学 习 一 直 无 法 很 好 地 对 另 一 类 形式 的 数据 一 图 数据 (或 称 网 络 数据 ) 进行 有 效 
地 适 配 。 作 为 一 类 主要 用 来 描述 关系 的 通用 数据 表示 方法 ， 图 数据 在 产业 界 有 着 更 加 广阔 
的 应 用 场景 ， 在 诸如 社交 网 络 、 电 子 购物 、 物 联网 、 生 物 制药 等 场景 中 ， 都 可 以 找到 图 数 
据 的 影子 。 将 深度 学 习 技术 的 成 功 经 验 迁 移 到 图 数据 的 学 习 中 来 ， 是 一 种 十 分 自然 且 必 要 


的 需求 








在 这 样 的 背景 下 ， 图 神经 网 络 的 出 现 很 好 的 填补 了 上 述 技术 衬 日 ， 实 现 了 图 数据 与 深 
度 学 习 扩 术 的 有 效 结合 ， 使 得 识 度 学 习 能 够 在 图 数据 的 相关 应 用 场景 中 继续 攻 城 略 地 。 事 
实 上 ， 纵 观 这 三 年 ， 图 神经 网 络 拉 术 的 相关 应 用 和 研究 已 经 拓展 到 了 极其 广泛 的 领域 ， 从 
视觉 推理 到 开放 的 阅读 理解 问题 ， 从 药物 分 子 的 研 肥 到 5G 心 族 的 设计 ， 从 交通 流量 预测 
到 3D 操 云 数据 的 学 习 ， 访 项 扩 术 都 展示 出 了 极其 重要 且 极 具 渗 透 性 的 应 用 能 为 ， 这 种 能 
力 必 将 给 产业 界 囊 来 极 高 的 应 用 价值 。 


笔者 所 在 公司 航 验 在 业务 风 控 的 应 用 场景 中 ， 长 期 再 成 在 网 络 攻防 对 抗 的 丽 线 ， 在 这 


力 ， 一 且 以 来 ， 我 们 都 期 望 有 一 套 冰 对 奖 的 模型 来 局 效 学 习 数 据 中 的 天 系 或 结构 化 信息 。 
极 验 在 2017 年 年 中 与 图 神经 网 络 技术 结缘 ， 正 好 提供 了 这 样 的 契机 ， 在 对 该 项 技术 进行 多 
番 论 证 并 上 线 到 极 验 的 实际 业务 中 后 ， 取 得 了 超出 预期 的 效果 ， 这 极 大 提升 了 我 们 对 该 项 
拉 术 的 热情 。 同 时 ， 为 了 更 好 地 对 这 项 新 技术 进行 讨论 和 学习， 我 们 组 织 了 相应 的 学 习 社 
群 ， 大 家 都 表现 出 了 高 昂 的 热情 ， 这 份 热情 激励 笔者 将 更 多 精力 投入 到 该 项 技术 上 ， 也 正 
因 如 此 ， 与 一 本 关于 图 神经 网 络 的 书籍 的 想法 应 运 而 生 。 期 望 通过 本 忆 ， 让 读者 朋友 对 该 
项 技术 的 来 龙 去 脉 有 更 清晰 、 全 面 的 认识 。 如 来 能 产生 更 大 的 知识 分 圣 成 来 ， 那 么 本 书 的 
价值 融 更 高 了， 这 将 是 对 我 们 的 最 好 回报 。 


本 书 读 者 对 象 
- 想 学 习 并 初步 实践 图 神经 网 络 技术 的 读者 
想 较 系统 且 深 入 理解 图 神经 网 络 技术 的 读 考 


本 书 主要 内 容 

















ERNA GRRL, Fie Pees, F2~4e ee ae 
号 。 主 要 介绍 学 习 图 神经 网 络 所 需 的 基础 知识 ， 包 括 图 的 基本 概念 、 卷 积 神经 网 络 以 及 表 
学 习 ， 帮 助 初 学 者 更 加 清晰 地 认识 到 图 神经 网 络 技术 与 深度 学 习 技术 是 一 脉 相 承 的 。 


第 二 部 分 为 高 级 篇 ， 包 括 第 5 一 9 章 。 这 部 分 是 本 书 的 重点 ， 主 要 讲解 图 卷 积 神经 网 络 
的 理论 基础 和 性 质 、 图 神经 网 络 的 各 种 变 体 和 框架 范式 、 图 分 类 以 及 基于 GNN 的 图 表示 
学 习 。 该 部 分 的 各 章节 都 有 相关 的 实践 案例 ， 为 读者 规划 了 完整 的 从 理论 到 实践 的 学 习 路 
线 ， 帮 助 读者 系统 全 面 地 学 习 图 神经 网 络 。 这 部 分 有 两 位 作者 ， 理 论 部 分 由 笔者 撰写 ， 实 
Phe FE ll YR HHS RHE HE 

第 三 部 分 为 应 用 篇 ， 即 第 10 章 ， 主 要 介 些 应 用 。 图 神经 网 络 
的 应 用 非常 广泛 ， 现 实 应 用 场景 非常 多 ， 但 鉴 于 本 书 的 规划 ， Ree ee, BED 
砖 引 玉 ， 让 读者 对 应 用 场景 有 一 定 的 认 知 。 SH HERES. 

最 后 ， 每 个 章节 都 附 有 相关 的 参考 文献 。 
本 书 特色 

本 书 有 如 下 特色 : 


C1) FEAR IA We 以 及 什么 是 频 域 图 郑 积 和 空域 图 套 积 ， 这 是 很 
多 初学 者 学 习 该 技术 的 第 一 只 “拦路 虎 ”; 


(2) 集中 力 述 了 图 态 积 模型 的 性 质 ， 这 些 性 质 的 解读 对 读者 深入 地 理解 图 神经 网 络 
技术 有 看 午 要 的 作用 ; 


A ee ee eee 
HRE X. 

(4) 本 书 为 了 帮助 读者 理解 图 神经 网 络 的 相关 概念 和 技术 ， 提 供 了 很 多 示意 图 。 
勘误 和 支持 

由 于 作者 的 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 
尽 请 读者 批评 指正 。 如 果 你 过 到 任何 问题 ， 可 以 访问 我 们 专门 为 本 书 创建 的 技术 主 
A ee ht Na 我 们 将 上 尽量 为 读者 提供 满意 的 解 

Pe a 的 意见 ， 也 欢迎 发 送 邮 件 至 邮箱 yfc@hzbook.com， 期 符 能 够 得 到 
imi E ti 
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Al (Graph) 是 一 个 具有 广泛 会 义 的 对 象 。 在 数学 中 ， 图 是 图 论 的 主要 研究 对 象 ， 在 
计算 机 工程 领域 ， 图 是 一 种 第 见 的 数据 结构 ; FERRE, AR YZ HRA AA 
型 数据 。 许 多 图 学 习 的 理论 部 专注 于 图 数据 相关 的 任务 上 。 


通 单 ， 图 被 用 来 表示 物体 与 物体 之 间 的 关系 。 这 在 生活 中 有 看 非常 多 的 现实 系统 与 之 
对 应 ， 比 如 化 学 分 子 、 通 信 网 络 、 社 区 网 络 等 。 事 实 上 ， 任 何 一 个 包含 二 元 关系 的 系统 都 
可 以 用 图 来 插 述 。 因 此 ， 研 究 并 应 用 图 相关 的 理论 ， 具 有 章 大 的 现实 音义。 


本 章 ， 我 们 主要 对 图 相关 的 概念 做 一 些 基础 介绍 ， 包 括 图 的 基本 定义 、 图 在 计算 机 中 
的 存储 表示 方法 与 表 历 方法 、 图 数据 及 其 第 见 的 应 用 场景 、 图 数据 深度 学 习 的 涛 述 。 


1.1 图 的 基本 定义 


在 数学 中 ， 图 由 顶点 (Vertex) 以 及 连接 顶点 的 边 《Edge) 构成 。 顶 点 表示 人 研究 的 对 
象 ， 边 表示 两 个 对 象 之 间 特 定 的 关系。 

图 可 以 表示 为 顶点 和 边 的 集合 ， 记 为 G= (V，E) ， 其 中 V 是 顶点 集合 ，E 是 边 集合 。 
同时 ， 我 们 设 图 G 的 顶点 数 为 N， 边 数 为 M〈 如 无 特殊 说 明 ， 本 书 中 的 图 均 如 此 表示 ) 。 
一 条 连接 项 反 Vi，vVjEV 的 边 记 为 (vi，vi) 或 者 e;。 如 图 1-1 所 示 ，V={VI，V2，V3， Va 
Vsp E={ (vp Vo) Gp V3) 5 Vy V4) ， (Vy Va) > (Va Vy) > (Vs Vs) feo 





图 1-1 ”图 G 的 定义 


1.1.1 图 的 基本 类 型 


1. 有 问 图 和 无 同 图 


如 下 图 中 的 边 存 在 方 加 性 ， 则 称 这 样 的 边 为 有 问 边 ej=<vi，Vj>， 其 中 vi 是 这 条 有 问 边 
的 起 后 ，Vj 是 这 条 有 问 边 的 终 操 ， 包 含有 问 边 的 图 称 为 有 问 图 ， 如 图 1-2 所 示 。 与 有 问 图 
相对 应 的 是 无 回 图 ， 无 回 图 中 的 边 都 是 无 同 边 ， 我 们 可 以 认为 无 同 边 是 对 称 的 ， 同 时 包含 


AAND e: eij=<Vi，Vj>=<Vj，Vi>=ejin 





2. 非 加 权 图 与 加 权 图 


如 朵 图 里 的 每 条 边 痢 有 一 个 实数 与 之 对 应 ， 我 们 称 这 样 的 图 为 加 权 图 ， 如 图 1-3 所 
， 该 实数 称 为 对 应 边 上 的 权重 。 在 实际 场景 中 ， 权 重 可 以 代表 两 地 之 间 的 路 程 或 运 得 成 
。 一般 情况 下 ， 我 们 习惯 把 权重 抽象 成 两 个 顶点 之 间 的 连接 强度 。 与 之 相反 的 是 非 加 权 
， 我 们 可 以 认为 非 加 权 多 各 边 上 的 权重 是 一 样 的 。 


图 1-2 ”有 向 网 
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1-3 ”加权 图 
3. 连 通 图 与 非 连通 图 


如 末 图 中 存在 扳 立 的 项 点 ， 没 有 任何 亡 与 之 相连 ， 这 样 的 图 被 称 为 非 连通 图 ， 如 图 1- 
4 所 示 。 相 反 ， 不 存在 孤立 顶点 的 图 称 为 连通 图 。 


4. 一 部 图 


二 部 图 是 一 类 特殊 的 图 。 我 们 将 G 中 的 顶点 集合 V 拆 分 成 两 个 子 集 A 和 B， 如 果 对 于 图 
中 的 任意 一 条 边 @j 均 有 viEA，vieB 或 者 vi EB，v; EA， 则 称 图 G 为 二 部 图 ， 如 图 1-5 所 
示 。 二 部 图 是 一 种 十 分 常见 的 图 数据 对 象 ， 描 述 了 两 类 对 象 之 间 的 交互 关系， 比如 : 用 户 
与 商品 、 作 者 与 论文 。 


图 1-4” 非 连通 图 





1.1.2 SKEME 


如 宁 存 在 一 条 边 连 接 顶 点 ww 和 Vi， 则 称 v 是 vi 的 邻居 ， 反 之 亦 然 。 我 们 记 Vi 的 所 有 邻居 
HREN (v;i) ， 即 : 


N(v,) = {vjde; E E or e; E E} (1.1) 


以 vi 为 端点 的 边 的 数目 称 为 vi 的 度 (Degree) ， 记 为 deg 〈Vi) 


deg(v;) = |N) (1.2) 
在 图 中 ， 所 有 节点 的 度 之 和 与 边 数 存 在 如 下 关系: 
X deg(v,) =2|£ | (1.3) 


在 有 问 图 中 ， 我 们 同时 定义 出 度 (Outdegree) 和 入 度 CIndegree) ， 顶 点 的 度数 等 于 
该 顶点 的 出 大 与 入 上 度 之 和 。 其 中 ， 顶 点 Vi 的 出 度 是 以 vj; 为 起 点 的 有 同 边 的 数目 ， 顶 点 vi 的 
Me UV AA RIVA TAZA H o 


113 子 图 与 路 径 


右 图 G=《〈V'，E') 的 顶点 集 和 边 集 分 别 是 为 一 个 图 G= (V, E AUS eA 
集 的 子 集 ， 即 VESV， 且 E'SE， 则 称 图 G' 是 图 G 的 子 图 CSubgraph) 。 


、 、 、 ，、 Vig Vong ttt, V 
在 图 G= (V, © 中 ， 若 从 顶点 vi 出 发 ， 沿 着 一 些 边 经 过 一 些 顶点 ?? ?2 ?pm 


到 达 顶 点 v,， 则 称 边 序列 you = (Epp epopa "> om 只 为 从 顶点 Ww 到 顶点 v 的 一 一 条 路 径 
(Path， 也 可 称 为 通路 ) ， 其 中 “pp “Pops om 为 图 G 中 的 边 
路 径 的 长 度 :路径 中 边 的 数目 通常 称 为 路 径 的 长 度 L P) Pyl 


MAREA: 知 存 在 全 少 一 条 路 径 由 项 点 Vi 到 这 顶点 ww， 则 定义 Vi 到 Vi 的 距离 为 : 
d(v,, v;) = min(|P;l) (1.4) 


EEA ZTE EBS BE ANT A te a EI RE. Ted (v vp =O, WA 
到 自身 的 距离 为 0。 


k 阶 邻居 : Ard (Vj) vj) =k， 我 们 称 WAV; 的 k 阶 邻 拓 。 
kry B| Ck-subgraph) : 我 们 称 一 个 项 点 vj 的 k 阶 子 图 为 : 
GO = (V', E'), V = {v]Vv, dv, v) = = {e,|Vv,, d(v, V) < k} (1.5) 


Aly, RITERITE Ak-hop. A1-647 AIHA ite LAV 2b FA 





图 1-6 ”图 G 的 2 阶 子 图 


12 ”图 的 存储 与 过 历 


1.2.1 邻接 矩阵 与 关联 和 矩阵 


作为 一 种 彰 见 的 数据 结构 ， 在 计算 机 里 儿 的 存储 表示 方法 有 很 多 种 ， 本 贡 只 着重 介绍 
Ab eke ME CAdjacency matrix) 和 关联 和 矩阵 (Incidence matrix) 这 两 种 方式 。 


wAIG= (V, E), 在 这 里 我 们 对 边 重 新 进行 了 编 亏 ej， e2，.……， EM? 如 图 1-7 所 示 。 
我 们 用 邻接 矩阵 A 插 述 图 中 顶点 之 间 的 关联 ，A ER ”、， 其 定义 为 : 


| if(v, v) G E 





(1.6) 
0 else 





图 1-7 ”图 G 示 例 


邻接 算 阵 存储 图 的 时 候 ， 我 们 需要 一 个 一 维 数组 表示 顶点 集合 ， 需 要 一 个 二 维 数 组 
表示 邻接 矩阵 。 需 要 特别 说 明 的 是 ， 由 于 在 实际 的 图 数据 中 ， 邻 接 和 矩阵 往往 会 出 现 大 量 的 
0 值 ， 因 此 可 以 用 稀 琉 矩阵 的 格式 来 存储 邻接 和 矩阵， 这 样 可 以 将 邻接 矩阵 的 空间 复杂 度 控 
制 在 0 (MO 的 范围 内 。 图 1-8 中 a 图 给 出 了 图 G 的 邻接 矩阵 存储 表示 ， 通 过 该 图 可 以 看 
出 ， 无 向 图 的 邻接 矩阵 是 沿 主 对 角 线 对 称 的 ， 即 Ai=Aii。 





a) 邻接 矩阵 b) 关联 矩阵 
图 1-8 ”图 G 的 邻接 算 阵 和 关联 矩阵 


除了 邻接 矩阵 外 ， 我 们 有 时 也 用 关联 窜 阵 BE RNM 来 摘 述 节点 与 边 之 间 的 关联 ， 定 义 
HF: 


ij 


lifv, 5 g AE] E 
| (1.7) 


0 else 
用 关联 矩阵 存储 图 的 时 候 ， 我 们 需要 两 个 一 维 数 组 分 别 表示 顶点 集合 和 边 集合 ， 需 要 
一 个 二 维 数 组 表示 关联 矩阵 。 同 样 ， 关 联 和 矩阵 也 可 以 用 稀 玖 矩阵 来 存储 ， 这 是 因为 B 的 任 
意 一 列 仪 有 两 个 非 0 值 。 图 1-8 中 b 图 展示 了 用 关联 矩阵 来 存储 图 的 示例 。 


1.2.2 图 的 过 历 


图 的 遍历 是 指 从 图 中 的 菜 一 顶点 出 发 ， 按 照 菜 种 搜索 算法 沿 看 图 中 的 边 对 图 中 的 所 有 
顶点 访问 一 次 且 仅 访问 一 次 。 图 的 过 历 主 要 有 两 种 算法 : 深度 优先 搜索 (DFS, Depth- 
First-Search) 和 广度 优先 搜索 (BFS, Breadth-First-Search) 。 几 的 遍历 是 一 种 重要 的 图 
检索 手段 ， 深 度 优先 搜索 与 广度 优先 搜索 给 出 了 相应 的 算法 基础 。 


深度 优先 搜索 是 一 个 递归 算法 ， 有 回 退 过 程 。 其 算法 思想 是 : 从 图 中 某 一 顶点 vi 开 
人 ， 由 vj 出发， 访问 它 的 任意 一 个 邻居 wj; 再 从 wj 出 发 ， 访 问 w; 的 所 有 邻 导 中 未 被 访问 过 
的 顶点 w*; 然后 再 从 ws 出 发 ， 依 次 访问 ， 直 到 出 现 某 顶 点 不 再 有 邻居 未 被 访问 过 。 接 
着 ， 回 退 一 步 ， 回 退 到 前 一 次 刚 访 问 过 的 项 点 ， 看 是 否 还 有 其 他 未 被 访问 过 的 邻 大 ， 如 果 
有 ， 则 访问 该 邻 大 ， 之 后 再 从 该 邻居 出 发 ， 进 行 与 前 面 类 似 的 访问 ;如 果 没 有 ， 就 再 回 退 
一 步 进行 类 似 访问 。 重 复 上 述 过 程 ， 直 到 该 图 中 所 有 顶点 都 被 访问 过 为 止 。 以 图 1-7 为 
例 ， 我 们 可 以 得 到 如 下 深度 优先 搜索 序列 : vi> V V4 > Vs > V30 


广度 优先 搜索 是 一 个 分 层 的 搜索 过 程 ， 没 有 回 退 过 程 ， 其 算法 中 想 是 : MRR IW 
所 Vi 开始 ， 由 vi 出 友 ， 依 次 访问 vi 的 所 有 未 被 访问 过 的 邻 大 w1，w2，.….，wn; 然后 再 顺序 
访问 W141，W2，.…，Wn 的 所 有 还 未 个 访问 过 的 邻 大 ， 如 此 一 层 层 执行 下 去 ， 生 到 图 中 所 有 
顶点 都 被 访问 到 为 止 。 以 图 1-7 为 例 ， 我 们 可 以 得 到 如 下 广度 优先 搜索 序列 : 


Vi 7 V2 7 V3 > VA Ves 


1.3 ”图 数据 的 应 用 场景 


我 们 提 到 图 ， 更 多 的 是 禹 有 一 种 数学 上 的 理论 色彩 ， 在 实际 的 数据 场景 中 ， 我 们 通 党 
将 图 称 为 网 络 (Network)， 与 之 对 应 的 ， 图 的 两 个 要 系 〈 顶 点 和 边 ) 也 被 称 为 节点 
(Node) MXA (Link) ， 比 如 我 们 熟知 的 社交 网络、 物流 网 络 等 概念 名 词 。 为 了 达成 
统一 并 与 神经 网 络 (Neural Networks) 中 的 “网 络 ? 概 念 区 分 开 来 〈 尽 党 神经 网 络 也 是 一 种 
网 络 ) ， 本 书 将 网 络 数 据 称 为 图 数据 。 


图 数据 是 一 类 比较 复杂 的 数据 类 型 ， 存 在 非 名 多 的 类 别 。 这 里 我 们 介绍 其 中 最 重要 的 
4 关 : 同 构 图 (Homogeneous Graph) 、 卉 构图 (Heterogeneous Graph) 、 属 性 图 
(Property Graph) MJERA] (Graph Constructed from Non-relational Data) 。 


(1) 同 构图 : 同 构 图 是 指 图 中 的 节点 类 型 和 关系 类 型 都 仪 有 一 种 。 同 构图 是 实际 图 
ae 如 由 超 链 接 关 系 所 构成 的 万 维 网 ， 这 类 图 数据 的 信息 全 部 包含 
ERVE ae FE 


(2 FMA: 与 同 构图 相反 ， 异 构图 是 指 图 中 的 节点 类 型 或 天 系 关 型 多 于 一 种 。 在 
现实 场景 中 ， 我 们 通 第 研究 的 图 数据 对 象 是 多 类 型 的 ， 对 象 之 间 的 交互 关系 也 是 多 样 化 
的 。 因 此 ， 开 构图 能 够 更 好 地 贴近 现实 。 


(3) 属性 图 : 相 较 于 异 构 匈 ， 属 性 网 给 图 数据 增加 了 额外 的 属性 信息 ， 如 网 1-9 所 
示 。 对 于 一 个 属性 图 而 言 ， 节 点 和 关系 都 有 标 釜 (Label) 和 属性 (Property) ， 这 里 的 标 
Seta TARR AWA, WT IRAE ASA”, Je ee ARRA AY PAO FIA 
A, QSAR? By WE EY Te) Eke SE JE A ee Pi dL 
业 级 图 数据 的 表示 方式 ， 能 够 广泛 适用 于 多 种 业务 场景 下 的 数据 表达 。 
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图 1-9 属性 图 


(4) 非 显 式 图 : 非 喧 式 图 是 指数 据 之 则 没有 喧 式 地 定义 出 关系， 需要 依据 对 种 规则 
或 计算 方式 将 数据 的 天 系 表达 出 来 ， 进 而 将 数据 当成 一 种 图 数据 进行 研究 。 比 如 计算 机 
rina Be WROTE CZ AY SPE Se OMAR ART A BUTE I AM 
了 图 数据 。 


在 我 们 研究 多 元 化 对 象 系统 的 时 候 ， 图 是 一 种 非常 重 要 的 视角 。 在 现实 世界 中 ， 图 数 
据 有 看 十 分 广泛 的 应 用 场景 。 下 和 面 我 们 举 几 个 例子 进行 说 明 ， 如 图 1-10 所 示 。 
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c) 化 学 分 子 











01 ERE f) 电路 设计 图 
图 1-10 ”图 数据 应 用 示例 由 9 


社交 网 络 ; 社交 网 络 是 十 分 常见 的 一 类 图 数据 ， 代 表 看 各 种 个 人 或 组 织 之 则 的 社会 天 
系 。 如 图 1-10 的 a 图 展示 了 在 线 社区 网 络 中 的 用 户 关 注 网 络 : 以 用 户 为 节点 ， 用 户 之 间 的 
关注 天 系 作为 边 。 这 是 一 个 典型 用 同 构图 ， 一 般 用 来 研究 用 户 的 重要 性 排名 以 及 相关 的 用 
尸 推荐 等 问题 。 随 看 移动 互联 网 技术 的 不 断 深入 ， 更 多 元 化 的 媒体 对 象 锐 补充 进 社 交 网 络 
中 ， 比 如 短文 本 、 视 频 等 ， 如 此 构成 的 卉 构图 可 以 完成 更 加 多 样 化 的 任务 。 


电子 购物 :电子 购物 是 互联 网 中 的 一 类 核心 业务 ， 在 这 类 场景 中 ， 业 务 数据 通常 可 以 
用 一 个 用 户 - 商 品 的 二 部 图 来 描述 ， 在 如 图 1-10 的 b 图 所 展示 的 例子 中 ， 节 点 分 为 两 类 : 用 
户 和 商品 ， 存 在 的 天 系 有 浏览 、 收 藏 、 购 买 等 。 用 户 与 商品 之 间 可 以 存在 多 重 关 系 ， 如 既 
存在 收藏 关系 也 存在 购买 关系 。 这 关 复 杂 的 数据 场景 可 以 用 属性 图 轻松 描述 。 电 子 购物 俊 
生 了 一 项 大 家 熟知 的 拉 术 应 用 一 推荐 系统 。 用 户 与 商品 之 间 的 交互 天 系 ， 肥 映 了 用 户 的 购 
物 仿 好 。 例 如， 经 典 的 啤酒 与 尿 布 的 故事 : 爱 买 啤酒 的 人 通 第 也 更 爱 买 奈 布 。 


化 学 分 子 : 以 原子 为 节点 ， 原 子 之 间 的 化 学 键 作为 边 ， 我 们 可 以 将 分 子 视 为 一 种 图 数 
据 进 行 研 究 ， 分 子 的 基本 构成 以 及 内 在 联系 决定 了 分 于 的 各 项 理化 性 质 ， 通 当 我 们 用 其 指 
号 新 材料 、 狐 药物 的 研究 任务 ， 如 图 1-10 的 c 图 所 示 。 


交通 网 络 : 交通 网 络 具 有 多 种 形式 ， 比 如 地 铁 网 络 中 将 各 个 站 点 作为 节点 ， 站 点 之 间 
的 连通 性 作为 边 构 成 一 张 图 ， 如 图 1-10 的 d 图 所 示 。 通 帝 在 交通 网 络 中 我 们 比较 关注 的 是 
路 径 规划 相关 的 问题 : 比如 最 短路 径 问 题 ， 再 如 我 们 将 车 流量 作为 网 络 中 节点 的 属性 ， 去 
预测 未 来 交通 流量 的 变化 情况 。 


场景 图 : 场景 图 古 图 像 语 义 的 一 种 接 述 方式 ， 它 将 图 像 中 的 物体 当 作 市 点 ， 物 体 之 间 
的 相互 关系 当 作 边 构 成 一 张 图 。 场 景 图 可 以 将 关系 复杂 的 图 像 倍 化 成 一 个 关系 明确 的 语义 
图 。 场 景 图 具有 十 分 强大 的 应 用 场景 ， 如 图 像 合成 、 图 像 语 义 检 索 、 视 党 推理 等 。 图 1-10 
的 e 图 所 示 为 由 场景 图 合成 相关 语义 图 像 的 示例 ， 在 该 场景 图 中 ， 揪 述 了 5 个 对 象 : 两 个 大 
人 、 一 个 小 孩 、 飞 一、 庭院 以 及 他 们 之 间 的 关系 ， 可 以 看 到 场景 图 具有 很 强 的 语义 表示 能 














力 。 


电路 设计 图 : 我 们 可 以 将 电子 器 件 如 谐振 器 作为 节点 ， 器 件 之 间 的 布线 作为 边 将 电路 
设计 抽象 成 一 种 图 数据 。 在 参考 文献 四 中 ， 对 电路 设计 进行 了 这 样 的 抽象 ， 如 图 1-10 的 f 
图 所 示 ， 然 后 基于 图 神经 网 络 技术 对 电路 的 电磁 特性 进行 仿真 拟 合 ， 相 较 于 严格 的 电磁 学 
公式 仿真 ， 可 以 在 可 接受 的 误差 范围 内 极 大 地 加 速 高 频 电路 的 设计 工作 。 


图 数据 的 应 用 场景 远 不 止 这 些 ， 还 有 请 如 摘 述 神经 网 络 计算 过 程 的 计算 图 、 传 感 厚 阵 
列 网 络 、 由 各 类 乔 能 传 感 右 构成 的 物 联 网 。 事 实 上 ， 如 末 要 找 一 种 最 上 其 代表 性 的 数据 插 述 
语言 与 现实 数据 对 应 ， 那 么 图 应 该 是 最 具 苋 搜 力 的 候选 者 。 忆 的 来 说 ， 图 数据 的 应 用 跨度 
大 、 应 用 场景 多 ， 研 究 图 数据 上 共有 广泛 且 草 要 的 现实 意义 。 


[1] Zhang G, He H, Katabi D.Circuit-GNN: Graph Neural Networks for Distributed Circuit 
Design[C]//International Conference on Machine Learning.2019: 7364-7373. 


14 图 数据 深度 学 习 


作为 一 种 重要 的 数据 类 型 ， 图 数据 的 分 析 与 学 习 的 需求 日 蔓 凸 显 ， 许 多 图 学 习 
(Graph Learning) 的 理论 均 专 注 于 图 数据 相关 的 任务 学 习 。 谱 图 理论 (Spectral Graph 
Theory) 呈 是 将 图 论 与 线性 代数 相 结 合 的 理论 ， 基 于 此 理论 发 展 而 来 的 谱 聚 类 相关 算法 
中 ， 可 以 用 来 解决 图 的 分 割 或 者 节点 的 聚 类 问题 。 统 计 关 系 学 习 (Statistical Relational 
Learning) [4 是 将 关系 表示 与 似 然 表 示 相 结合 的 机 器 学 习 理论 ， 区 别 于 传统 的 机 器 学 习 算 
法 对 数据 独立 同 分 布 (independent and Identically Distributed， 数 据 对 象 是 同类 且 独 立 不 相 
关 的 ) 的 假设， 统计 关系 学 习 打 人 破 了 对 数据 的 上 述 两 种 假设 ， 对 图 数据 的 学 习 具 有 更 好 的 
契合 度 。 为 了 更 加 贴 合 实际 场景 中 的 开 构 网 数据 ， 异 构 信 息 网 络 〈Heterogeneous 
Information Network) 分析 被 提出 ， 用 以 挖 气 异 构图 中 更 加 全 面 的 结构 信息 和 丰富 的 语 
义 信息 。 由 于 这 些 年 深度 学 习 在 实际 应 用 领域 取得 的 巨大 成 就 ， 表 示 学 习 和 病 对 并 学 习 有 的 
概念 日 益 得 到 香 视 ， 为 了 从 复杂 的 图 数据 中 学 习 到 包含 充分 信息 的 回 量 化 表示 ， 出 现 了 大 
量 网 络 表 示 学 习 (Network Embedding) (中 的 方法 。 然 而 网 络 表示 学 习 很 难 提供 表示 学 习 
加 任务 学 习 的 产 对 问 系 统 ， 基 于 此 ， 图 数据 的 问 对 问 学 习 系统 仍 然 是 一 个 重要 的 研究 谍 
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数据 相对 应 的 数据 有 图 像 、 语 首 与 文本 ， 这 些 数据 是 定义 在 欧式 空间 中 的 规则 化 结构 数 
据 ， 基 于 这 些 数 据 的 张 量 计算 体系 是 比较 目 然 且 高 效 的 。 图 1-11 给 出 了 图 数据 与 其 他 几 关 
钊 见 闫 型 数据 的 对 比 。 图 像 效 据 至 现 出 规则 的 2D 栅 格 结构 ， 这 种 栅 格 结构 与 郑 积 神经 网 
络 的 作用 机 制 具 有 民 好 的 对 应 。 文 本 数据 是 一 种 规则 的 序列 数据 ， 这 种 序列 结构 与 循环 神 
经 网 络 的 作用 机 制 相对 应 。 
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文本 是 书面 语言 的 表现 形式 一 


1D Frail 





图 1-11 图像 和 语音 文本 数据 类 型 


受 图 信号 处 理 (Graph Signal Processing) (中 对 图 信号 卷 积 滤波 的 定义 的 启发 ， 近 几 


年 友 展 出 了 一 套 基 于 图 若 积 操作 并 不 断 衔 生 的 神经 网 络 理 论 。 本 书 将 这 类 方法 统称 为 图 神 
经 网 络 (Graph Neural Network，GNNLIDBI0) 。 下 面 我 们 简 述 其 发 展 历 程 。 


2005 年 ，Marco Gori 等 人 发 表 论文 1， 首次 提出 了 图 神经 网 络 的 概念 。 在 此 之 前 ， 处 
理 图 数据 的 方法 是 在 数据 的 预 处 理 阶段 将 图 转换 为 用 一 组 辣 量 表示 。 这 种 处 理 方法 最 大 的 
问题 束 古 图 中 的 结构 信息 可 能 会 丢失 ， 并 且 得 到 的 结果 会 严重 依赖 于 对 图 的 了 预 处 理 。 
GNN 的 提出 ， 便 是 为 了 能 够 将 学 习 过 程 下 接 染 构 于 图 数据 之 上 。 


随后 ， 其 在 2009 年 的 两 篇 论文 "全 中 中 又 进一步 阐述 了 图 神经 网 络 ， 并 提出 了 一 种 监 
督学 习 的 方法 来 训练 GNN。 但 是 ， 早 期 的 这 些 研究 都 是 以 从 代 的 方式 ， 通 过 循环 神经 网 
络 传播 祁 夺 信息 ， 生 到 达到 稳定 的 固定 状态 来 学 习 市 皮 的 表示 。 这 种 计算 方式 消耗 非 当 
大 ， 相 关 研 究 开 始 关 注 如 何 改 进 这 种 方法 以 减 小 计算 量 。 


2012 年 前 后 ， 郊 积 神 经 网 络 开始 在 视觉 领域 取得 令 人 瞩目 的 成 绩 ， 于 是 人 们 开始 考 感 
如 何 将 卷 积 应 用 到 图 神经 网 络 中 。2013 年 Bruna 等 人 首次 将 卷 积 引入 图 神经 网 络 中 ， 在 引 
文 [14] 中 基于 频 域 郑 积 操作 的 概念 开 有 友 了 一 种 图 疮 积 网 络 模型 ， 首 次 将 可 和 学习 的 孝 积 操作 
用 于 图 数据 之 上 。 目 此 以 后 ,不断 有 人 所 出 改进 、 拓 展 这 种 基于 频 域 图 泵 积 的 神经 网 络 模 
型 。 但 是 基于 频 域 疮 积 的 方法 在 计算 时 需要 同时 处 理 整 个 图 ， 并 且 需 要 承担 矩阵 分 解 时 的 
很 蜗 的 时 间 复 森 度 ， 这 很 难 使 学 习 系 统 扩 展 到 大 规模 图 数据 的 学 习 任 务 上 去 ， 所 以 基于 空 
域 的 图 吞 积 被 所 出 并 逐渐 流行 。 


2016 年 ，Kipf 等 全 将 频 域 图 卷 积 的 定义 进行 简化 ， 使 得 图 卷 积 的 操作 能 够 在 空域 
进行 ， 这 极 大 地 提升 了 图 苍 积 模型 的 计算 效率 ， 同 时 ， 得 荔 于 苍 积 滤波 的 融 效 性 ， 图 大 积 
模型 在 多 项 图 数据 相关 的 任务 上 取得 了 令 人 瞩目 的 成 绩 。 


近 几 年 ， 更 多 的 基于 空域 图 卷 积 的 神经 网 络 模型 的 变 体 中 人 29 被 开发 出 来 ， 我 们 将 
这 类 方法 统称 为 GNN。 各 种 GNN 模 型 的 出 现 ， 大 大 加 强 了 学 习 系 统 对 各 类 图 数据 的 适应 
性 ， 这 也 为 各 种 图 数据 的 任务 学 习 真 定 了 坚实 的 基础 。 


目 些 ， 图 数据 与 深度 学 习 有 了 第 一 次 真正 意义 上 的 结合 。GNN 的 出 现 ， 实 现 了 图 数 
据 的 病 对 病 学 习 方 式 ， 为 图 数据 的 诸多 应 用 场景 下 的 任务 ， 提 供 了 一 个 极 具 苋 争 力 的 学 习 

下 面 ， 我 们 给 出 图 数据 相关 任务 的 一 种 分 类 。 

1.77 SRI (Node Level) 的 任务 


市 扩 层 面 的 任务 主要 包括 分 类 任务 和 回归 任务 。 这 类 任务 虽然 是 对 市 点 层面 的 性 质 进 
行 预 测 ， 但 是 显然 不 应 该 将 模型 建立 在 一 个 个 单独 的 亨 扣 上 ， 市 反 的 关系 也 需要 考虑 。 市 
扩 层 面 的 任务 有 很 多 ， 包 括 学 术 上 使 用 较 多 的 对 论文 引用 网 络 中 的 论文 市 把 进 行 分 类 ， 工 
业界 在 线 社 交 网 络 中 用 户 标签 的 分 类、 恶意 账户 检 训 等 。 


2. 边 层面 (Link Level) 的 任务 
边 层 面 的 任务 主要 包括 边 的 分 类 和 预测 任 WH 


务 。 边 的 
JJ o 

测 ， 边 预测 是 指 给 定 的 两 个 节点 之 间 是 否 会 构成 边 。 党 
将 用 户 作为 节点 ， 用 户 之 间 的 关注 关系 建 模 为 边 ， 通 过 














分 关 征 指 对 边 的 东 种 性 质 进行 预 
见 的 应 用 场景 比如 在 社交 网 络 中 ， 
边 预 名 实现 社区 用 户 的 推荐 。 目 


前 ， 边 层面 的 任务 主要 集中 在 推荐 业务 中 。 

3. 图 层面 (Graph Level) 的 任务 

图 层面 的 任务 不 依赖 于 某 个 厄 点 或 者 菏 条 边 的 属性 ， 而 是 从 图 的 整体 结构 出 友 ， 实 现 
分 类 、 表 示 和 生成 竺 任务。 目前 ， 图 层面 的 任务 主要 应 用 在 自然 科学 研究 领域 ， 比 如 对 药 


物 分 子 的 分 类 、 酶 的 分 类 每 。 


[1] HARI: http://helper.ipam.ucla.edu/publications/dlt2018/dlt2018_14506.pdf。 
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第 2 章 ”神经 网 络 基 础 


近 儿 年 ， 随 着 算法 的 改进 、 数 据 量 的 爆发 、 算 力 的 提升 ， 机 器 学 习 和 深度 学 习 得 到 了 
快速 肥 展 。 本 章 将 从 机 右 学 习 的 基本 概念 出 友 ， 介 绍 什么 古 机 占 学 习 以 及 如 何 得 到 机 此 学 
习 的 模型 。 然 后 介绍 深度 学 习 模 型 的 基本 组 成 时 元 一 神经 元 模型 和 以 它 为 基础 构建 的 多 层 
感知 硕 蛋 型。 我 们 还 将 以 多 层 感知 厚 为 例 ， 介 绍 深度 学 习 中 的 反 回 传播 算法 和 优化 方法 。 


2.1 机 可 学 习 基 本 概念- 
2.1.1 WL 


机 幽 学 习 是 一 门 多 领域 区 义学 科 ， 涉 及 概率 论 、 统 计 学 、 欢 近 论 、 凸 分 机、 计算 复杂 
性 理论 等 多 门 学 科 。 机 絮 学 习 理论 主要 是 设计 和 分 析 一 些 让 计算 机 可 以 目 动 “ 学 习 ” 的 算 
法 。 通 俗 地 说 ， 机 带 学 习 是 让 计算 机 从 数据 中 去 挖掘 有 价值 的 信息。 


从 不 同 的 维度 来 分 ， 机 器 学 习 可 以 有 不 同 的 分 类 。 下 面 简要 介绍 几 种 常见 的 分 类 广 


根据 训练 数据 是 人 否 有 标签 ， 机 如 学 习 可 以 分 为 监督 学 习 、 半 监督 学 习 和 无 监督 学 习 。 


监督 学 习 ， 指 的 是 训练 数据 中 每 个 样本 都 有 标签 ， 通 过 标签 可 以 指导 模型 进行 训练 
学 到 具有 判别 性 的 特征 ， 从 而 能 够 对 未 知 样本 进行 预测 。 比 如 图 像 分 类 比赛 ImageNet， 通 
过 利用 每 张 图 像 已 有 的 标签 训练 模型 ， 使 得 模型 可 以 对 未 知 的 图 像 进行 预测 ， 得 到 相应 的 


分 类 结 来 。 


无 监督 学 习 : 指 的 是 训练 数据 完全 没有 标签， 通过 算法 从 数据 中 友 现 一 些 数据 之 间 的 
约束 关系 ， 比 如 数据 之 间 的 关联 、 距 离 天 系 等 。 典 型 的 无 监督 算法 如 聚 基 ， 根 据 一 定 的 度 
量 指标 ， 将 “距离 ”相近 的 样本 聚集 在 一 起 。 


半 监 督学 习 : 指 的 是 介 于 监督 和 学 习 和 无 监督 学 习 之 间 的 一 种 学 习 方式 。 它 的 训练 数据 
既 包 含有 标 倍数 据 ， 也 包 侣 无 标 丛 数据。 假设 如 朱 标 签 数据 和 无 标签 数据 都 是 从 同一 个 分 
布 采样 而 来 ， 那 无 标签 数据 中 含有 一 些 数据 分 布 相关 的 信息 ， 可 以 作为 标签 数据 之 外 的 补 
苑 。 这 种 情况 在 现实 中 是 非 营 利 见 的 。 比 如 在 互联 网 行业 ， 每 天 会 产生 大 量 的 数据 ， 这 些 
数据 部 分 可 能 携 市 标签 ， 但 更 多 的 数据 是 不 市 标 低 的 ， 如 果 徘 人 工 去 标记 这 些 无 标签 数 
据 ， 代 价 是 相当 大 的 ， 而 半 监 督 和 学 习 可 以 提供 一 些 解决 思路 。 


从 算法 输出 的 形式 上 来 分 ， 可 以 分 为 分 类 问题 和 回归 问题 ， 这 两 类 问题 都 属于 监督 学 
习 的 范畴 。 


分 类 问题 : 指 的 是 模型 的 输出 值 为 离散 值 。 比 如 在 风 控 场景 中 ， 模 型 通常 输出 的 是 正 
W ERAR; 在 图 像 分 类 任务 中 ， 模 型 输出 为 图 像 所 属 的 具体 类 列 。 


回归 问题 ， 指 的 是 模型 的 输出 值 为 连续 值 。 比 如 在 电 疝 广告 推荐 中 ， 模 型 党 第 输出 用 
尸 扩 击 茶 个 商品 的 概率 ， 概 率 越 蜗 表 示 模 型 认为 用 尸 越 倾 同 于 扣 击 该 商品 。 














= 





2.1.2 ”机 需 学 习 流 程 概述 


一 个 完整 的 机 融 学 习 流 程 通 利 涉及 多 个 环节 ， 各 个 环节 之 间 相 互 依 赖 ， 下 面 以 一 个 共 
体 的 实例 来 下 观 地 说 明 整 个 流程 ， 然 后 以 数学 的 语言 阐述 整个 过 程 。 


1. 示 例 


在 电 商 领 域 ， 我 们 需要 对 商品 进行 分 类 ， 为 了 简化 问题 ， 假 设 只 有 一 批 商品 的 图 所 数 
扰 ， 分 为 羽绒 服 、 毛 昵 大衣、 连衣裙、 卫衣 等 品 关 。 我 们 需要 建立 一 个 异型 ， 便 用 这 批 商 
品 的 图 片 数据 训练 模型 ， 得 到 一 个 可 以 对 未 知 的 图 片 进行 分 闫 的 预测 模型 。 比 如 对 于 新 样 
式 的 羽 绕 服 可 以 正确 预测 它 的 类 别 是 羽绒 服 。 要 完成 上 述 功 能 ， 在 机 器 学 习 中 通 弟 需要 如 


下 几 个 步 又 。 


(1) 提取 商品 图 片 的 特征 : 在 计算 机 中 图 像 都 是 以 像 取 的 方式 离散 存储 的 ， 单 个 像 
素 携 带 的 信息 ， 很 难 让 模型 直接 去 学 习 。 为 了 让 计算 机 能 够 准确 地 识别 分 类 ， 需 要 提取 一 
些 有 区 分 性 的 特征 ， 比 如 衣服 的 颜色 、 风 格 等 。 这 些 特征 可 以 是 人 为 定义 的 ， 这 个 过 程 称 
为 特征 工程 ， 也 可 以 使 用 算法 目 动 提取 前 者 是 传统 机 器 学 习 的 必需 步 又， 并且 具有 举 足 轻 
重 的 地 位 ， 后 者 典型 的 方法 是 深度 学 习 ， 恋 者 在 第 3 章 可 以 了 解 到 如 何 使 用 深度 学 习 方 法 
解决 这 个 问题 。 


(2) 建立 模型 ， 在 定义 好 特征 后 ， 需 要 选择 一 个 合适 的 模型 来 建 模 。 传 统 的 机 器 学 
习 模型 有 逻辑 回归 、 随 机 森林 等 ， 基 于 深度 学 习 的 方法 ， 有 多 层 感知 器 、 卷 积 网 络 等 。 模 
型 可 以 看 成 是 一 个 复杂 的 函数 y=f (X;，Wj) ， 其 目的 是 建立 输入 到 标签 y 之 间 的 映射 ， 其 
中 X 是 前 面 定义 的 特征 ，W 是 定义 模型 的 参数 。 


(3) 确定 损失 函数 和 进行 优化 求解 : 选择 模型 只 是 确定 了 一 个 模型 形式 ， 比 如 使 用 
逻辑 回归 ， 它 还 包含 权 值 ， 在 这 些 权 值 没 有 确定 之 前 ， 古 无 法 用 它 来 进行 正确 预测 的 。 那 
么 如 何 调整 模型 使 得 它 可 以 完成 有 音义 的 预测 呢 ? 前 和 完 二 要 一 个 数值 来 量化 模型 预测 的 对 
首 ， 损 失 函 数 开 古来 衡量 模型 输出 与 标签 之 间 的 牵 异 程度 的 ， 当 预测 结果 与 标签 笼 异 仿 大 
时 ， 损 失 函 数值 增 大 ， 反 之 则 减 小 。 基 于 损失 函数 给 出 的 值 ， 可 以 通过 优化 方法 调整 柑 型 
以 不 断 减 小 损失 值 。 

2. 数 学 模型 

以 上 述 例 子 代 表 的 分 类 模型 为 例 ， 给 出 分 类 的 数学 模型 。 假 设 有 一 批 包 含 N 条 样本 有 的 
MZR 用 集合 X={ (x), VY, i=l, 25 wes N} 表 示 。 每 一 个 样本 x 都 有 对 应 的 标签 y;， 其 
Px ER 表示 每 个 样本 是 一 个 d 维 的 疝 量 ， 标 签 y; 是 一 系列 离散 值 y,E Y={0，1，2,..， 
K}， 表 示 样 本 x 所 属 的 类 列 ，K 为 类 列 的 种 类 数 。 我 们 的 目的 是 建立 一 个 能 完成 分 类 功能 
的 模型 ， 即 需要 这 样 一 个 模型 : f，R RK*， 输 入 是 d 维 的 向 量 ， 经 过 f 上 映射， 输出 在 每 个 
类 别 上 的 概率 分 布 P CY|x,) =f Cy; 0) ， 这 样 就 可 以 取 概 率 最 大 的 类 别 作 为 结果 ， 即 
y; = argmax(P(Y|x,)), 








那么 现在 的 问题 是 ， 如 何 评价 分 类 模型 的 好 坏 呢 ? 比较 直接 的 方法 是 ， 我 们 关注 模型 
在 训练 数据 上 的 结果 ， 通 过 比较 7; = argmax(/(zciO)) 与 样本 真实 标签 % 是 否 相同 来 评 





MIREG. MRR ET UII ERS EN AB aD EARS EST IE TU, ASR AE AY BE 
AARRE, SUA Bee “AY, CE PEARSE AS EO, RAI] ihe 22 — 
以 量化 这 个 差异 的 方法 ， 该 方法 就 是 损失 函数 。 


损失 函数 Coss function) 用 来 估量 模型 的 预测 值 光 与 真实 值 y 的 差异 程度 ， 是 一 个 非 
负 实 值 函数 ， 通 常用 L y f; 6) ) 来 表示 。 在 机 器 学 习 中 ， 通 过 在 训练 集 X 上 最 小 
化 损失 函数 来 训练 模型 ， 调 整 { 的 参数 9， 使 得 损失 函数 值 降低 ， 当 损失 函数 取 最 小 值 时 ， 
也 就 找到 了 一 个 不 错 的 模型 。 这 个 过 程 称 为 优化 求解 。 整 个 过 程 可 以 用 式 〈2.1) 表示 : 





0 -argmin DLO S0850) +200) (21) 


I= 


其 中 ， 前 面 的 均值 函数 表示 的 是 经 验 风 险 函 数 ，L 代 表 的 是 损失 函数 ， 后 面 的 @ 是 正 
则 化 项 (regularizer) BAHU RETIN (penalty term) ， 可 以 是 LI 也 可 以 是 L,， 或 者 其 他 正 
则 函数 。 上 述 公 式 表 示 的 是 找到 使 目标 函数 最 小 的 9 值 。 损 失 函 数 则 在 表示 模型 输出 
f (x) 和 真实 值 Y 的 锚 卉 程度 ， 不 同 的 损失 函数 有 不 同 的 表示 音义 ， 也 束 古 在 最 小 化 损失 
函数 的 过 程 中 ,f(x)〉 人 巡 近 Y 的 方式 不 同 ， 得 到 的 结果 可 能 也 不 同 。 


在 实际 优化 时 ， 和 营 常 无 法 一 步 到 位 年 接 找到 合适 的 参数 ， 因 此 在 机 禹 学 习 中 ， 退 第 使 
用 达 代 式 的 方法 逐步 交 近 最 优 值 。 整 个 过 程 如 图 2-1 所 示 : 对 训练 集 X 使 用 柑 型 f(X; 00) 
进行 预测 ， 其 中 0 表示 初始 参数 ， 然 后 对 预测 的 结果 与 样本 真实 标签 利用 损失 函数 计算 损 
和 失信， 优化 方法 会 根据 当前 损失 值 对 参数 进行 调整 ， 得 到 9， 然后 重复 上 述 过 程 ， 桂 续 迭 
代 ， 下 到 该 算法 肥 现 损失 可 能 是 最 低 的 模型 参数 。 通 解 ， 可 以 不 断 友 代 ， 下 到 总 体 损 失 不 
再 变化 或 变化 极其 缓慢 为 目 ， 这 时 候 ， 我 们 可 以 说 该 模型 已 收敛 。 


| 


HESE: 执行 预测 























原始 数据 一 一 > : 特征 工程 :一 一 > 


模型 (预测 函数 ) 
计算 损失 




















图 2-1 HAE BIE TE 


需要 注意 的 是 ， 我 们 训练 模型 的 目的 不 是 让 模型 在 训练 集 上 取得 不 错 的 效果 ， 而 是 希 
望 模型 从 训练 集中 学 会 去 面 对 未 知 的 样本 ， 能 够 对 新 样本 进行 预测 。 一 个 极端 的 情况 是 我 
们 得 到 了 一 个 模型 ， 它 能 完美 地 拟 合 训练 数据 ， 能 完全 正确 地 预测 所 有 的 训练 样本 ， 即 它 
的 损失 值 为 0， 但 是 在 新 样本 预测 的 表现 上 却 糟糕 ， 这 种 现象 在 机 器 学 习 中 被 称 为 过 拟 
BA ne ae nee nee nee 这 种 现象 被 
KARI 


损失 函数 和 优化 算法 是 机 器 学 习 的 两 个 重要 组 成 部 分 。 接 下 来 我 们 首先 介绍 几 种 第 用 





HDA RB, PSR TAREHE HC BBE BE 


2.1.3 HIM MK eR A 
损失 函数 是 指导 模型 进行 有 效 学 习 的 基础 ， 基 于 不 同 的 任务 可 以 选择 或 者 设计 不 同 的 
损失 函数 ， 全 得 模型 可 以 从 孝 据 中 控 据 出 有 价值 的 信息 。 下面 我 们 介绍 几 种 常见 的 损失 函 
1 .平方 损失 函数 
平方 损失 的 定义 如 式 (2.2) AR: 


Ly SED =— 0, = /00:0)) (2.2) 


FP NetpA ate, EA eA a RS ee ZAP eA PAS 


问题 。 
2.40 SCTE 
Ae SUH (cross entropy) 损失 第 用 于 分 类 问题 中 ， 分 类 模型 通 音 输出 类 别 的 概率 分 


布 ， 交 义 燃 衡量 的 是 数据 标 多 的 真实 分 布 与 分 类 模型 预测 的 概率 分 布 之 则 的 牵 腊 程度 ， 损 
失 值 越 小 ， 它 们 之 间 的 看 弄 就 越 小 ， 模 型 束 越 能 准确 地 进行 预测 。 其 离散 形式 如 下 : 


L(y, f(x)) = H (p,q) = -Dp | x;)log|q(y, | x,)| (2.3 ) 


i=] 


其 中 p，q 分 列表 示 数 据 标签 的 真实 分 布 和 模型 预测 给 出 的 分 布 ，p (yilxi〉 表 示 样 本 x; 
标签 的 真实 分 布 。 一 般 来 说 ， 样本 Xi 只 属于 茶 个 类 别 cl 因此 p Cy,=c, |x) =1, 在 其 他 类 


别 上 概率 为 0。4( 六 1*) 表 示 给 定 样本 x 模型 预测 在 各 个 类 别 上 的 概率 分 布 。 如 果 样 本 x 的 
WREN AHA (2.3) 可 以 简化 为 式 (2.4) : 


Hare- T mea (2.4) 
N 


可 以 看 出 在 这 种 情况 下 ， 最 小 化 交叉 烯 损失 的 就 是 最 大 化 样本 标签 的 似 然 概率 。 


对 于 二 分 类 来 说 yi;E {0，1}， 使 用 地 辑 回 归 可 以 得 到 样本 x 属于 类 列 1 的 概 琛 
q (y,=1|x,) 》 那么 样本 属于 类 别 0 的 概率 为 1-dq Cy,=1|x,) 》 使 用 式 (2.4) ’ AY De Be 
FS NEVA A PKA, WA (2.5) Ata, “ETEK — TEAS MTA © 


1 N 
L(y, f (x)) = -Ar logq(y, =1|x,)+(1—y,)log(l —logg(y, =1)x,))] (2.5) 


2.1.4 E FERYE 

1. 梯 度 下 降 算法 的 原理 

机 器 学 习 中 很 多 问题 的 求解 本 质 上 都 是 求解 优化 相关 的 问题 ， 找 到 合适 的 参数 以 期 最 
小 化 损失 函数 值 。 求 解 类 似 的 优化 问题 ， 有 很 多 成 熟 的 方法 可 以 参考 ， 梯 度 下 降 就 是 一 种 
经 典 的 方法 。 它 利用 梯度 信息 ， 通 过 不 断 迭 代 调 整 参数 来 寻找 合适 的 解 。 


对 于 一 个 多 元 函数 f Cx) ， 梯 度 定 义 为 对 其 中 每 个 日 变量 的 偏 导 数 构 成 的 癌 量 ， 用 
f (x) 表示， 如 式 (2.6) 所 示 : 














f CE VIO A E VA (2.6) 
考查 f(x+Ax) 在 x 处 的 泰勒 展开 ， 如 式 〈2.7) 所 示 : 
f(x + Ax) = f(x) + f(x) Ax + o(Ax) (27) 


要 想 使 得 f (x+Ax) <f x) ， 忽 略 高 阶 项 ， 就 需要 f Cx) “Ax<0， 也 就 是 次， 满足 这 
个 条 件 就 可 以 使 得 函数 值 减 小 ， 进 一 步 地 ，f Ox) TAx=||f Cx) 了 :IIAxll'cos9， 取 Ax=- 
af (x) ， 可 保证 更 新 后 的 x 可 以 使 得 函数 值 减 小 ， 这 里 a 是 一 个 超 参 数 ， 用 于 调整 每 次 更 
新 的 步 长 ， 称 为 学 习 率 。 


机 幽 学 习 中 优化 的 目标 是 最 小 化 损失 函数 ， 通 过 梯度 下 降 的 方法 进行 求解 的 过 程 分 为 
以 下 几 步 ， 算 法 过 程 如 代码 清单 2-1 所 示 。 首 先 ， 通 过 随机 初始 化 为 需要 求解 的 参数 赋 初 
值 ， 作 为 优化 的 起 点 ; 接 下 来 ， 使 用 模型 对 所 有 样本 进行 预 训 ， 计 算 总 体 的 损失 值 ， 然 后 
利用 损失 值 对 模型 参数 进行 求 导 ， 得 到 相应 的 柳 度 ; Baz TE EB BL, FS BIEL 
后 的 参数 。 重 复 上 述 过 程 ， 直 到 达到 停止 条 件 。 


作 一 个 形象 的 比喻 ， 梯 度 下 降 算法 束 像 是 一 个 人 下 山 ， 他 和 在 山顶 ， 想 要 达到 山脚 ， 但 
是 山上 的 浓 务 很 大 ， 他 分 不 消 下 山 的 路 ， 必 须 利用 自己 周围 的 信息 去 找到 下 山 的 路 任 ， 这 
时 候 惑 可 以 使 用 棉 度 下 降 算法 。 有 基体 来 说 融 是 ， 以 他 当前 所 处 的 位 置 为 基准 ， 找 到 这 个 位 
AEEA EL PE, FERRIES ERDIK, BaD Aek 
功 到 达 山 脚 了 。 








标 度 下 降 算 法 


LA er snl SEH Fu z +N LA ee Ja = fn Aa DE oe we ee A ON ys (0) (k) do ZF, e . s A = dk 
给 定 训 练 集 (Vn BRERA, 包含 的 参数 集合 为 9={ ,.…,0 3}, MABRA LY SX 0), FAR 
为 Oc 

m = ri » M 0 k 

随机 初始 化 参数 : {0 ,.…,0) 3 


Per ESQ 由， 和 a;*™2 


L = L(Y, f(X;® )) 





~ OL (0) (k) 
VO =—={V 0" ,...,V 0" } 
60, 
© = {0 = WE 50°” iy avo“) 


2. 随 机 标 度 下 降 算 法 


有 前面 介 绍 的 梯度 下 降 算 法 需要 首先 计算 所 有 数据 上 的 损失 值 ， 然 后 再 进行 梯度 下 降 ， 
这 种 方式 在 数据 规模 比较 大 时 是 比较 低 效 的 。 主 要 体现 在 3 个 方面 ， 一 是 数据 规模 大 时 ， 
模型 计算 所 有 样本 的 时 间 增 加 ;二 是 随 痢 数据 维度 的 增加 ， 梯 度 计 算 的 复杂 上 度 也 会 增加 ; 
三 是 虽然 可 以 基于 所 有 样本 得 到 准确 的 梯度 值 ， 但 是 仅 需 进行 一 次 参数 更 新 ， 我 们 称 这 样 
HIRERE T ERIA JIWE F pE (Batch Gradient Descent) 。 


QU ERAS 8A 4 Be ES EAS PE, TT EFS FRAN TRE, ENAK E ak 
Dit aie, FER RCR, (AMT Ee Be PRUE Ee ? 可 以 证 明 ， 这 种 算法 的 
收敛 性 是 可 以 保证 的 ， 这 种 方法 称 为 随机 梯度 下 降 (Stochastic Gradient Descent, 

SGD) 。 


具体 来 说 不是， 每 钦 从 训练 集中 随机 选择 一 个 样本 ， 计 算 其 对 应 的 损失 和 杨 度 ， 进 行 
参数 更 独 ， 有 反复 迭代 。 这 种 方式 在 数据 规模 比较 大 时 可 以 减 小 计算 复 林 度 ， 从 概率 意义 上 
来 说 单个 样本 的 标 度 是 对 整个 数据 梯度 的 无 仿 估 计 ， 但 是 它 存在 大 一 定 的 不 确定 性 ， 因 此 
收 全 速率 相 比 批 柳 度 下 降 得 更 慢 。 


改进 的 方法 是 每 次 使 用 多 个 样本 来 估计 梯度 ， 这 样 可 以 减 小 不 确定 性 ， 提 高 收敛 速 
率 。 这 种 方法 称 为 小 批量 随机 梯度 下 降 Cmini-batch SGD)，， 其 中 每 次 迭代 选取 的 样本 数 
量 称 为 批 大 小 (batch size) ， 算 法 步骤 如 下 所 示 。 


小 批量 随机 梯度 下 降 





WKB, Yr PRBS, APHSRRS YH O=0,..,0°9}, RERA LO SX: 0), FIF 
为 a， 批 处 理 大 小 为 B。 
随机 初始 化 参数 : 0, = {(H”,..., 9} 
For epoch=0,1,2,3,…,N; 随机 打 乱 样本 
依 次 从 A nY 中 随 机 tt 择 B 个 RE 本 得 到 Xp > Ys 
L, = L(Y, ,f (Xp 3®,)) 


OL (0) (k) 
VO =—={V 0"... VO} 
00 


k k 
© = (0° -QVO ,...,0 ) -aVvo } 


2.2 ”神经 网 络 


随 着 神经 科学 、 认 知 科学 的 发 展 ， 我 们 已 经 知道 人 类 的 智能 行为 都 和 大 脑 活动 有 关 。 
人 类 的 大 脑 是 一 个 可 以 产生 意识 、 思 想 和 情感 的 占 官 。 受 到 人 脑 神经 系统 的 局 友 ， 早 期 的 
神经 科学 家 构造 了 一 种 模仿 人 脑 神经 系统 的 数学 企 型 ， 称 为 人 工 神 经 网 络 ， 简 称 神经 网 
络 。 在 机 需 学 习 领 域 ， 神 经 网 络 是 指 由 很 多 人 工 神 经 元 构成 的 网 络 结构 酝 型 ， 这 些 人 工 神 
经 元 之 间 的 连接 强度 是 可 学 习 的 参数 。 


2.2.1 神经 元 


神经 元 是 神经 网 络 进行 信息 处 理 的 基本 单元 ， 其 主要 是 模拟 生物 神经 元 的 结构 和 特 
性 ， 接 收 输入 信号 并 产 出 输出 。 

生物 学 家 在 20 世 纪 初 就 发 现 了 生物 神经 元 的 结构 ， 如 图 2-2 所 示 。 一 个 生物 神经 元 通 
常 具 有 多 个 树 突 和 一 条 轴 突 。 树 突 用 来 接收 信息 ， 轴 突 用 来 发 送信 息 。 当 神经 元 所 获得 的 
和 输入 信号 积累 超过 某 个 靖 值 时 ， 它 区 会 处 于 兴奋 状态 ， 产 生 电 脉冲 。 轴 突 尾 端 有 许多 末梢 
可 以 与 其 他 神经 元 的 树 突 产生 连接 ( 突 触 〉， 并 将 电 脉 冲 信 号 传递 给 其 他 神经 元 。 





细胞 结 
( a 





图 2-2 ”典型 神经 元 结构 


1943 年 ， 心 理学 家 McCulloch 和 数学 家 Pitts 根 据 生 物 神 经 元 的 结构 ， 提 出 了 一 种 非常 
简单 的 神经 元 模型 一 MP 神经 元 山 。 


一 个 基本 的 神经 元 包括 3 个 基本 组 成 部 分 : 输入 信号 、 线 性 组 合 和 非 线性 激活 函数 。 
我 们 可 以 用 式 (2.8) MA 2.9) 来 描述 图 2-3 中 的 神经 元 的 计算 。 





PITA PRB 


输入 权 值 
图 2-3 ”神经 元 示意 图 


iil 
a = 》 Wi, (2.8 ) 
j=l 


a; = o(z, + b) (2.9) 


FLHAX,, X49 e. x eI AES > Wio? Wiz? =? W, te tHE TE CE zi 是 输入 信和 号 
的 线性 组 合 ，b 是 俩 置 ， 激 活 函 数 为 c 〈.) ，ai 是 神经 元 输出 信和 号。 


[1] 图 所 来 产 : https://commons.wikimedia.org/wiki/File:Neuron_Hand-tuned.svg。 


2.2.2 Z RAA 
1. 单 隐 层 感知 器 
单个 隐藏 层 的 感知 器 的 典型 结构 如 图 2-4 所 示 ， 它 通过 将 神经 元 进行 堆 项 得 到 ， 我 们 
。 Din Pout = \ — we p A 
可 以 把 它 看 作 一 个 映射 SR ORO EED 表示 输入 层 的 神经 元 个 数 ， 也 就 是 输 


A HÆR, Do 表示 输出 层 的 神经 元 个 数 ， 也 丈 是 输出 同 量 的 维度 ， 计 算 过 程 可 以 用 
式 (2.10) 表示 : 


f(x) = f(b? + WAA? + W))) (2.10) 
输入 层 隐藏 层 输出 层 





图 2-4 单个 隐藏 层 的 感知 厚 


其 中 b “1 、b Y Rati, WP, WO 表示 权 值 向 量 ，f1、f 表 示 激 活 函 数 。 
h (x) ACO + 丈 ， 加 就 是 隐藏 层 的 输出 ， 可 以 看 到 ， 隐 藏 层 的 输出 就 是 对 输入 进行 
I Din x Dh pa 
ye peas wep asi. WO E ROO! AAA TEER I EEE 
阵 ，W 'D 的 每 一 列表 示 从 输入 连接 到 隐藏 层 一 个 神经 元 的 权 值 向 量 。 台 表示 激活 函数 ， 


它 对 隐藏 层 的 每 个 神经 元 进行 变换 ， 得 到 对 应 的 输出 ， 这 种 计算 方式 称 为 逐 元 素 操 作 
(Elementwise Operator) ，2.3 节 将 会 介绍 一 些 典 型 的 激活 函数 。 


2.JES RU ae HY) fs Ee E 


Z JERE (Multi-Layer Perceptron, MLP) ， 也 称 前 馈 神 经 网 络 。— 典 型 的 多 层 感知 
器 如 图 2-5 所 示 ， 前 面 介 绍 的 单 层 感知 器 是 它 的 一 种 特殊 形式 。 它 有 如 下 几 个 特点 。 


输入 层 隐藏 层 输出 层 


SOKO - 
< 





图 2-5 ”多 层 感 知 右 模型 


BRISA at VASP AST aba: 输入 层 、 隐 志 层 、 输 出 层 ， 其 中 隐 闫 层 可 以 包括 一 层 
或 者 多 层 ; 每 一 层 都 由 在 干 神经 元 组 成 ， 每 个 神经 元 承担 的 计算 功能 包括 线性 加 权 和 非 线 
0 

连接 。 


得 入 信和 号 通过 不 断 地 进行 线性 变换 《线性 加 权 ) MIERE HR COG PAB) ， 逐 渐 将 
得 入 信号 回 后 一 层 传递 ， 直 到 输出 层 。 其 中 输入 层 和 和 输出 层 的 神经 元 个 数 往往 是 通过 乞 验 
的 知识 确定 的 ， 而 隐 成 层 中 每 层 的 神经 元 个 数 以 及 使 用 的 层 数 都 是 超 参 数 。 


更 一 般 化 地 ， 我 们 用 式 〈2.11) 和 式 〈2.12) 的 形式 来 表示 多 层 感知 器 的 信息 传播 过 


王 


D= ps a + po (2.11) 


qa” = a (2°?) ( ALA ) 


yp WO E ROMP ag (LI1) 到 第 ] 层 的 变换 参数 ，D， 表示 第 〈L1) 层 的 神 
AT, DRAENEI, bO E RET, (WO, dO } 是 一 层 
网 络 中 可 训练 的 参数 。o 是 第 ! 层 的 激活 函数 。Z?”E R” a? © 及 分 别 表示 线性 变换 
的 输出 和 激活 函数 的 输出 。 


多 层 感知 器 逐 层 传递 信息 ， 得 到 输出 y， 整 个 网 络 可 以 看 作 一 个 复杂 的 复合 函数 
p(X; W，b) ， 其 中 W、b 表 示 参 数 的 集合 {W V , bP |=1，2，3，...}。 


2.3 激活 图 数 


激活 畏 数 是 神经 网 络 中 一 个 十 分 重要 的 概念 ， 它 的 非 线 性 使 得 神经 网 络 几乎 可 以 任意 
允 近 任何 非 线 性 函数。 如 末 不 使 用 激活 函数 ， 无 论 神经 网 络 有 多 少 层 ， 其 每 一 层 的 和 翘 出 都 
是 上 一 层 输入 的 线性 组 合 ， 这 样 构成 的 神经 网 络 仍然 是 一 个 线性 模型 ， 表 达能 力 有 限 。 


激活 函数 的 选择 可 以 多 种 多 样 ， 一 个 基本 的 要 求 是 它们 是 连续 可 导 的 ， 可 以 允许 在 少 
数 点 上 不 可 导 。 第 用 的 激活 函数 包括 S$ 型 激活 函数 和 ReLU 及 其 变种 等 。 





2.3.1 SHOR AŽ 
s 型 激活 函数 中 比较 典型 的 是 Sigmoid 和 Tanh， 这 种 激活 函数 的 特点 是 有 界 ， 即 
lim s(x)=a, lim s(x)= 、 cence: ses 
UM SCO as oms00， 并 且 输 入 的 绝对 值 越 大 ， 对 应 的 梯度 就 越 小 ， 越 趋 近 于 0。 
Sigmoid 函 数 的 定义 为 式 (2.13) : 


] 
(2.13 ) 





a(x) = 
|+e° 


Sigmoid K BCR ER AZ) Aa A AEKA ERLE, FARK, $e 
1; WAERD, eae To. 4xeE[-1, 1], a UEMA ERER, FFA 
x=0 时 ， 疯 数值 为 0.5。 

它 在 神经 网 络 中 党 第 用 作 二 分 类 右 最 后 一 层 的 激活 函数 ， 可 将 任意 实数 值 转换 为 概 
率 ; 另 一 个 应 用 场景 是 由 于 它 的 值 域 为 (0，1) ， 故 可 以 作为 一 个 类 似 于 开关 的 调节 器 ， 
用 于 对 其 他 信息 进行 调节 。 


另 一 个 函数 是 Tanh， 其 定义 为 式 (2.14) : 


e 一 6 


tanh(x) = 一 一 一 (2.14 ) 
= = 


相 比 较 于 Sigmoid，Tanh 的 值 域 范围 更 大 一 些 ， 为 (-1，1) 。Sigmoid 和 Tanh 的 函数 
图 像 如 图 2-6 所 示 。Tanh 也 可 以 作为 “开关 ?调和 输入 信息 。 


2.3.2 ReLU 及 其 变种 


1.ReLU 


线性 整流 函数 (Rectified Linear Unit, ReLU) HÆ BAR BE Dy ee A ZS E H A 
活水 数 。 它 的 定义 为 当 x>0 时 ， 保 持 x 不 变 进 行 输 出 ， 保 持 不 变 ; ， 当 x<0 时 ， 输 出 为 0， 如 
式 (2.15) Pra: 





| x ifx>0 | | 
ReLU(x) = l (215) 
0 fx<0 
一 一 Sigmoid 1.0 
Tanh | 
0.5 
A0 -5 0 5 10 
_0 1 
~1.0 


图 2-6 Sigmoidrs 244 Tanh žk 

a UAR, ReLUMIE MBIA Ee AA, SAA TIN, EWES, MAA 

PALER WU RAR ANE, REPEAL IU il]. FE BE A, ANRE AN ea i J AY ST h 

KE TE © AN EE AACA EIN, REP ANZE, ENL AARNE REY 

RA He. EREM (2.16) Aras, RGE eA, TPR {RR F o 
l if x20 


0 ifx<0 


V e RELU( XI = (2.16) 


Fgh, FMS ERSTE LP AY Pease BR TP AA USE”, RA ze SRR HB 
eal 那么 在 进行 反 同 传播 时 ， 其 相应 的 柳 度 始终 为 0， 寻 致 无 法 进行 有 效 的 更 
新 。 


在 实际 使 用 中 ， 为 了 避免 上 述 情况 ， 有 几 种 ReLU 的 变种 也 被 广泛 使 用 。 
2.LeakyReLU 


LeakyReLUDI 不 同 于 ReLU 在 输入 为 负 时 完全 进行 抑制 ， 它 在 输入 为 负 时 ， 可 以 允许 
一 定量 的 信息 通过 ， 具 体 的 做 法 是 在 输入 为 负 时 ， 输 出 为 )x， 如 式 (2.17) 所 示 。 


LeakyReLU(x) Le 434i 3 &() (2.17) 
CaKkKVKREL 一 
á KFE x0 


其 中 A>0 是 一 个 超 参 数 ， 通 常 取 值 为 0.2。 这 样 就 可 以 避免 ReLU 出 现 神 经 元 “死亡 ” 现 
A. LeakyReLUM tHE WSN (2.18) 所 示 。 


| | wx>0 | | 
V . LeakyReLU(x) = | (718) 


A if x<0 


3.PReLU 


PReLU (Parametric ReLU) I 在 LeakyReLU 的 基础 上 更 进一步 ， 它 将 LeakyReLU 中 的 
超 参 数 和 改进 为 可 以 训练 的 参数 ， 并 且 每 个 神经 元 可 以 使 用 不 同 的 参数 。 对 于 单个 神经 
元 ，PReLU 的 定义 如 式 〈2.19) Pra: 


x iix>0 
PReLU(x)= ( 2.19 ) 


axifxx<0 


对 于 XX E 及 〈， 所 需要 的 参数 量 为 D ， 因 此 相 较 于 LeakyReLU，PReLU 引 入 了 更 多 
的 参数 。 另 外 对 于 维度 更 高 的 输入 ， 比 如 卷 积 神经 网 络 的 中 间 层 输出 xERHxwxc， 不 必 为 
其 中 的 每 个 元 素 均 设 置 一 个 可 训练 的 参数 ， 可 以 在 维度 H 和 W 上 进行 共享 ， 这 样 需要 的 参 
数 总 量 为 C。 

4.ELU 


不 同 于 LeakyReLU 和 PreLU 在 输入 为 负 时 ， 进 行 线 性 压缩 ， 指 数 线性 单元 
(Exponential Linear Unit, ELU) 5 在 输入 为 负 时 ， 进 行 非 线性 变换 ， 如 式 (2.20) 所 
未 ， 它 的 函数 曲线 如 图 2-7 所 示 。 


(2.20 ) 


a 
ELua = | if x | 


a(e")-1 ifx <0 

Hha, ae ~ PBR, PHA A TN AX. ERA a TE HY 
为 0 的 功能 ， 可 以 加 速 神经 网 络 的 收敛 。 

上 述 几 种 油 活 函数 的 图 像 如 图 2-7 所 示 : 


ReLU 
LeakyReLU 
wen LL 





4 5 0 2 4 


图 2-7 ReLU, LeakyReLU, ELUM AMA 


2.4 训练 神经 网 络 


如 何 让 神经 网 络 高 效 地 进行 训练 ， 这 是 神经 网 络 研究 早期 遇 到 的 难题 之 一 。 反 向 传播 
方法 器 的 提出 解决 了 这 个 难题 ， 它 基于 链 式 法 则 快速 地 计算 参数 的 梯度 ， 然 后 使 用 梯度 下 
降 算法 进行 参数 更 新 。 本 节 我 们 将 介绍 神经 网 络 模型 的 运行 过 程 ， 随 后 将 详细 介绍 反 向 传 
播 算法 ， 最 后 介绍 在 含有 大 规模 参数 的 情况 下 神经 网 络 优化 面临 的 挑战 。 





2.4.1 神经 网 络 的 运行 过 程 


神经 网 络 的 运行 过 程 分 为 三 步 : 前 加 传播 、 反 回 传 播 、 参 数 更 新 ， 通 过 不 断 迭 代 进 行 
模型 参数 的 更 新 ， 以 从 数据 中 挖 气 出 有 价值 的 信息 ， 如 图 2-8 所 示 。 

1) 前 问 传播 : 给 定 输入 和 参数 ， 逐 层 同 前 进行 计算 ， 最 后 输出 预测 结果 ，; 

2) RRR: 基于 前 同 传 播 得 到 的 预测 结果 ， 使 用 损失 函数 得 到 损失 值 ， 然 后 计算 
相关 参数 的 梯度 ， 访 计算 方法 称 为 反 同 传播 (back-propagation) ， 有 具体 的 细 贡 后 面 将 详细 


介绍 ; 


. a ~ SEHERE F ERAN SAIT BCT, ERER, EPAR, EF 
喘 型 收敛 。 


前 向 传播 








© j 

Wy ( SZ aN = 
- : pi Se © 一 一 | nzas | 8 三 
a AN .了 NB@ 
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图 2-8 ”神经 网 络 的 运行 过 程 


2.4.2 ” 反 回 传播 


我 们 以 多 层 感知 器 为 例 来 介绍 反 向 传播 算法 。 给 定 样本 ft, Ibn, ELERA 
器 的 消息 传递 公式 可 以 进行 前 向 传播 ， 这 个 过 程 可 以 用 图 -9 来 表示 。 





Ben On 


图 2-9 ”多 层 感知 右 计 算 示意 图 


BERE Co y) ， 前 向 传播 得 到 输出 对 应 的 损失 值 为 上 0" 切 ， 接 下 来 求 参 数 
有 使 用 链 式 法 则 可 以 得 到 式 (2.21) 。 


OL(y,y) _ pg’ OL(y,y) (331) 
aw? aw Az? 





(1) | OL(y, y) y) 
们 定义 。 de” 为 误差 项 ， 它 衡量 的 是 z CD 对 损失 值 的 影响 ， 进 一 步 使 用 链 式 


我 
法 则 ， 我 们 可 以 得 到 式 (2.22) . 
A (/) (/+1) + 
OL(y,¥)_Oa 07 2 (y,y) (2 22 ) 


Az? Az"? ða” Az) 
D tb O Ha D =ø (z O ) 进行 变换 可 以 得 到 式 








g = 


基于 公式 z (1+1) =W (1+1) a 








(2.23) ào 
A (1) (/+1) A 
Be” gO Gu” Bm 


. 
= o (z*) © W +D sem 


其 中 o' GzP ) 2o ORANMTIAIGAR, “Ee MT MRAR 
BHT. Mot (2.23) PHA, A-BNKRASAYIRNKRAA R, KARRE 


播 的 来 源 。 





那么 对 于 5 sw， 可 以 得 到 式 (2.24) ， 
OL(y, y) _ (Ds) P £ 
DI) (a0, (2.24) 
OW ) | 


偏 置 项 b V 的 导数 如 式 〈2.25) 所 示 : 


_ 50 (2.25) 


2.4.3 WEAS 


PREM ORL, BATERA AE (ELLER BAIA 
型 参数 规模 的 增加 ， 也 给 模型 优化 带 来 一 些 严峻 的 问题 。 


LÄR 


Mak (2.23) 中 可 以 看 出 ， 第 ] 层 的 误差 是 通过 第 d+1) RNRESAEZAMENY 
加 权 ， 再 乘 以 激活 函数 的 导数 得 到 的 ， 如 果 激 活 函 数 使 用 Sigmoid， 它 的 导数 为 Oo' (x) 
=0 (x) (1-0 (x) ) ， 由 于 a (x) € (0，1) ， 它 的 导数 的 最 大 值 为 o' (x) =0.25, 4 
层 数 增加 时 ， 最 后 一 层 的 误 短 将 在 前 面 的 层 中 快速 衰减 ， 这 会 导致 靠近 输入 层 的 梯度 值 非 
利 小 ， 参 数 儿 乎 无 法 进行 有 效 的 更 新 ， 在 下 一 次 前 同 传 播 时 ， 由 于 前 面 层 的 参数 无 法 有 效 
面 的 层 使 用 ， 模 型 加 难以 进行 有 效 的 训练 。 这 种 现象 称 


导致 梯度 消失 的 原因 在 于 激活 函数 的 饱和 性 ， 比 如 Sigmoid、Tanh 等 都 会 市 来 这 种 问 
el, “EER BUSI EPA, PRR Eee), SRA SE), Z 
URES) Bz [el Fe FA oe 1 5 EMEA rie), 2-10 Pt aN AN TSS RN & Fe ed as VI RE 
每 一 层 权 值 W 的 2 范 数 ， 可 以 看 出 越 靠 近 输 入 的 层 ， 它 的 值 越 小 ， 这 隋 是 梯度 消失 的 表 
现 。 因 此 现在 的 神经 网 络 通 间 使 用 ReLU 激 活 函数 。 


2. Jay aD Ee A 


FEI TIAR RR TERIER Ae SS BE YS eg» TALES a BA OH Fs AE S, 
但 损失 函数 与 参数 之 间 的 关系 却 古 非 凸 的 ， 如 图 2-11 中 的 a 图 所 示 。 深 度 神 经 模型 具有 非 
利多 的 局 部 最 优 ， 当 陷入 局 部 最 优 时 ， 和 模型 优化 融会 变 得 非 钟 困难， 不 过 ， 次 度 神经 网 络 
模型 通常 存在 非常 多 的 局 部 最 优点 ， 往 往 这 些 局 部 最 优 解 都 能 保证 模型 的 效果 '。 





|| WI]. 
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TERR 
图 2-10 ”梯度 消失 示意 网 


另 一 个 问题 是 ， 由 于 维度 过 高 ， 深 度 神 经 网 络 模型 也 种 冲 存 在 很 多 鞍点 ， 考 点 指 的 是 
在 该 处 柳 度 为 0〈 如 图 2-11 中 的 b 图 所 示 ) ， 但 是 它 并 不 是 最 小 值 或 者 最 大 值 ， 通 币 驳 氮 市 
来 的 挑战 比 局 部 最 优 要 大 得 多 。 当 处 于 鞍点 区 域 并 且 误 天 较 大 时 ， 由 于 这 部 分 区 域 相 
et ee nee a ee Omen: ene ene 





图 2-11 ”损失 函数 可 视 化 结果 [9 
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PIE IRIA A 


卷 积 神经 网 络 (Convolutional Neural Network, CNN#%ConvNet) 是 一 种 具有 局 部 连 
PE. 权 值 共 圣 等 特点 的 深层 前 馈 神 经 网 络 ， 在 图 像 和 视频 分 析 领 域 ， 比如 图 像 分 类 、 目标 
检测 、 几 像 分 割 等 各 种 视 党 任务 上 取得 了 显著 的 效果 ， 是 目前 应 用 最 广泛 的 模型 之 一 。 


3.1 车 积 与 池 化 


耸 积 与 池 化 是 郑 积 神经 网 络 中 的 两 个 核心 操作 ， 大 多 数 的 神经 网 络 结构 都 是 将 它们 进 
行 组合 而 得 到 的 。 本 市 将 详细 阐述 大 积 的 来 源 和 原理 ， 以 及 池 化 的 基本 概念 。 


3.1.1 ”信号 处 理 中 的 卷 积 

卷 积 一 词 源 于 信号 处 理 领 域 ， 它 是 一 项 广泛 应 用 于 信号 处 理 、 图 像 处 理 以 及 其 他 工程 
科学 领域 的 技术 。 卷 积 的 一 个 典型 应 用 是 :针对 某 个 线性 时 不 变 的 系统 ， 给 定 输入 信和 号 
f(t) 和 系统 响应 g (tr) ， 求 系统 的 输出 。 


郑 积 的 数学 定义 如 式 (3.1) 所 示 : 


(1*g)(D=| f(c)g(t-z)de (3.1) 


ON AR AR Ga 3-1 REAME, Were CO) 经 过 翻转 和 平移 t 后 ， 得 
Pjg D ， 和 再 求 与 函数 fr) 乘积 的 积分 。 


f (7) 





f(t) 


g(t) 


g(-T) 
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f(t) 
g (tit) 





1 T 
图 3-1 着 积 的 过 程 
1. 图 像 中 的 卷 积 


BRAT VA RA Bl RE EER. TENUA EY PS) RE as a ee FZ RAR A DTS HT 
式 存 储 的 ， 可 以 用 一 个 二 维 或 者 三 维 的 矩阵 来 表示 。 假 设 对 于 一 个 二 维 的 图 像 
XERIW， 卷 积 核 为 GE R**， 通 常 k 为 奇数 ， 二 维 离散 卷 积 的 计算 方式 如 式 (3.2) 所 


y= Y XG, (3.2) 
TE 


ELE EISELE TOR AS AAT Fe 180°, FA CELA P IAT DY i E h 
个 大 小 为 kxk 的 区 域 ， 与 旋转 后 的 耸 积 核 求 内 积 ， 得 到 对 应 位 置 的 得 出。 


在 传统 的 图 像 处 理 中 ， 若 积 核 通 党 是 人 为 设 定 的 ， 不 同 的 郑 积 核 可 以 提取 输入 中 的 某 
种 特征 ， 得 到 不 同 的 输出 。 图 3-2 展 示 了 两 种 不 同 的 疮 积 核 Sobel 和 Laplacian， 它 们 都 可 以 
用 于 提取 图 像 的 边 绿 ， 但 Laplacian 是 一 个 二 阶 的 算 子 ， 而 Sobel 是 一 个 一 阶 的 算 子 ， 因 此 
ee ee ee ee we FT 
特征 。 
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2. 卷 积 的 意义 


在 信号 处 理 中 ， 卷 积 有 一 个 很 重要 的 定理 一 疮 积 定 理 。 这 个 定理 应 用 非常 广 沁 ， 在 信 
号 处 理 中 有 硕 举 足 轻 重 的 地 位 。 它 的 意义 在 于 可 以 将 时 域 中 复杂 的 疮 积 运算 转换 为 频 域 中 
人 简单 的 相 乘 运算 ， 即 


(7 * g)(t)<—F(w)G(w) (3.3) 
ERIEN, LG LA LL a i E RE SH 


域 中 的 一 种 方法 ， 它 将 函数 分 解 为 一 系列 不 同 频率 的 三 角 函 效 的 登 加 ， 可 以 将 它 理解 为 从 
为 一 个 维度 去 观察 数据 。 曾 有 人 这 样 比喻 传 里 叶 变 换 ， 如果 把 图 像 比 作 一 道 做 好 的 采 ， 那 


ZA FAM Be eA] VA HE CHE SHE A SE Be ST A | AMP ES HS J ll FE 
如 何 ， 它 都 可 以 清晰 地 分 辨 出 来 。 


将 图 像 和 克 积 核 都 变换 到 频 域 中 ， 变 换 后 ， 克 积 核 作 为 一 个 滤波 如 ， 对 变换 后 的 频 域 
图 像 进行 处 理 ， 当 苍 积 核对 应 的 滤波 副 是 一 个 低 通 滤波 占 时 ， 进 行 图像 处 理 时 会 过 渡 挥 一 
些 较 遍 的 频率 ， 如 果 将 经 过 滤波 硕 后 的 频 域 图 像 变 换 回 像 系 空 间 ， 我 们 束 会 看 到 一 些 细节 
丢失 了 ， 这 是 因为 蜗 频 对 应 看 剧烈 变化 的 区 域 ， 也 就 是 图 像 的 边缘、 细 市 等 。 





3.1.2 ”深度 学 习 中 的 卷 积 操作 


深度 学 习 中 的 卷 积 操作 与 信号 处 理 中 的 卷 积 概念 稍 有 不 同 ， 本 节 将 用 单 通道 关 积 为 例 
介绍 卷 积 的 计算 过 程 ， 然 后 将 其 扩展 到 多 通道 卷 积 ， 它 是 卷 积 网 络 的 基础 。 

1. 音 通道 郑 积 

先 以 单 通道 的 输入 为 例 介 绍 深度 学 习 中 使 用 的 郑 积 ， 与 式 〈3.2) 的 定义 稍 有 不 同 ， 
在 深度 学 习 中 ， 卷 积 核 不 需要 进行 显 式 翻转 ， 如 式 〈3.4) 所 示 ， 这 个 定义 在 信号 处 理 中 
称 为 互相 关 ， 但 是 由 于 卷 积 网 络 中 的 卷 积 核 是 通过 目 动 学 习 得 到 的 ， 因 此 这 样 的 定义 并 不 
会 给 输出 禹 来 影响 ， 本 书后 面 的 内 容 都 是 使 用 这 种 定义 。 


H,,= Y Xps (3.4 ) 


下 面 以 一 个 具体 的 例子 来 介绍 该 过 程 。 如 图 3-3 所 示 ， 假 设 输入 X 是 一 个 5x5 大 小 的 矩 
阵 ， 与 一 个 大 小 为 3x3 的 欠 积 核 进行 巷 积 计算 ， 得 到 输出 结果 。 以 X 的 第 1 行 第 1 列 的 元 系 
为 中 心 ， 计 算出 它 对 应 的 结果 ， 如 式 (3.5)〉 Aras: 


2 3 5 [0 1 0 
0 0 1lel2 0 1=14 (3.5) 
3 3 21/1 1 žl 


图 像 处 理 中 使 用 的 卷 积 核 是 人 工 确定 的 ， 深 度 学 习 中 的 卷 积 核 参 数 是 可 训练 的 ， 通 过 
使 用 第 2 章 中 介绍 的 反 向 传播 和 优化 算法 ， 可 以 动态 地 调节 卷 积 核 参数 ，3.2 节 中 将 详细 讨 
论 这 个 问题 。 

如 3.1 节 中 所 介绍 的 ， 每 个 卷 积 核 提取 输入 的 某 种 特征 ， 为 了 增加 特征 的 丰富 程度 ， 
0 m , i= G? G! _ Go) Gi = Rix J 
我 们 常常 会 使 用 多 个 卷 积 核 ， 即 和 = O0, G, n, £ ， 将 输入 与 每 个 
卷 积 核 得 到 的 多 个 结果 拼接 起 来 。 对 于 以 X ， ,为 中 心 的 局 部 区 域 ， 卷 积 得 到 的 是 向 量 
Hy. nlm. no Haa poe Haa c.1]， 其 中 的 每 一 个 元 素 都 是 与 对 应 的 卷 积 核 计 
算得 到 的 结果 。 将 结果 拼接 起 来 ， 卷 积 核 可 以 用 一 个 三 维 的 张 量 表 示 ， 即 GE RXC， 输 
出 结果 为 HER “wx ， 我 们 称 卷 积 得 到 的 输出 为 特征 图 (feature map) 。 





图 3-3 FORE AS ARN it A 


在 图 3-3 所 示 的 例子 中 ， 和 输入 维度 在 孝 积 之 后 减 小 了 ， 这 个 问题 是 由 输入 的 边界 导致 
的 ， 知 积 的 起 始 位 置 无 法 取 到 输入 的 每 一 个 位 置 。 这 会 市 来 以 下 两 个 问题 : 


: 当 进 行 多 次 孝 积 运算 后 ， 输 出 的 太吉 会 越 来 越 小 


' 越 是 边 绿 的 像 系 捅 ， 对 于 输出 的 影响 越 小 ， 因 为 郑 积 运算 在 移动 到 边缘 的 时 候 束 结 
束 了 。 中 间 的 像素 点 会 参与 多 次 计算 ， 但 是 边缘 的 像素 点 可 能 只 会 参与 一 次 运算 ， 这 残 导 
致 了 边缘 信息 的 丢失 。 


为 了 解决 上 述 问 题 ， 通 第 对 边缘 使 用 0 值 进行 填充 〈padding) ， 使 得 边缘 处 的 像 际 值 
也 能 进行 计算 ， 从 而 使 得 输入 维度 与 输出 维度 保持 一 致 。 填 充值 的 大 小 指 的 是 进行 填充 的 
数量 ， 如 padding=1， 表 示 在 输入 的 外 层 填 序 一 圈 0， 如 图 3-4 中 的 a 图 所 示 。 这 样 输入 的 维 
EKER I CW+2, st2) 。 一 般 来 说 ， 当 padding=p 时 ， 输 入 的 维度 实际 上 变 成 了 
(W+2P, H+2P) 。 


AS eer ZEA SARA RE BL, i Ee DOME NE? 0 值 的 多 少 
SE lp ESAS IN TETAS, SARA BAK AAA, ARP H=k/2 |, N REETA 
的 形状 与 输出 的 长 宽 一 致 。 


输出 的 特征 图 的 大 小 不 仅仅 与 padding 有 关 ， 还 与 卷 积 的 方式 有 关 。 上 面 讨论 的 都 是 
标准 的 卷 积 操作 ， 也 就 是 输入 中 的 每 个 位 置 都 参与 计算 ， 有 时 不 必 对 每 个 位 置 进行 计算 ， 
可 以 每 隔 几 个 位 置 计算 一 次 ， 这 个 间隔 称 为 步 长 (stride) ， 比 如 图 3-4 中 的 b 图 就 是 一 个 
步 长 为 2 的 卷 积 示意 图 。 





a) padding = 1 b) stride = 2 


图 3-4 ”Padding 和 stride 示 意图 
2.4 HIE 5 


META SEGAR, CORSET DEAT AB eR AR. CAAT AA 
XER WC, CHANG (channels) 数 ， 卷 积 核 的 长 宽 都 为 K。 由 于 输入 有 多 个 通道 ， 
此 我 们 赋予 每 个 通道 一 个 kxk 的 卷 积 核 ， 这 些 卷 积 核 构 成 GCc ERIC, TRE STE AS AH BY 
以 定义 为 式 (3.6) : 


= 7 > a 
H and E 3. > A iin a Sa ( 3.0 ) 


C c' c H'x W' 
中 p malt n+j,: = R ’ G; ;. = R ’ A... = R 
ZN 9 


多 通道 夸 积 的 过 程 如 图 3-5 所 示 ， 可 以 把 这 个 过 程 看 作 一 个 3D 的 套 积 核 消 过 输入 层 。 
再 要 特别 注意 的 是 ， 输 入 层 和 和 郑 积 核 有 相同 的 深度 ， 这 样 郑 积 核 只 需要 在 高 委 两 个 方 同 
上 移动 ， 这 也 是 该 种 操作 航 称 为 2D 疮 积 的 原因 ， 尽 官 它 使 用 的 是 三 维 涯 流 规 。 在 每 一 个 
退 过 张 量 点 积 运 算得 到 一 个 特征 图 上 对 应 位 置 的 值 ， 最 后 得 到 一 个 时 通道 输 





图 3-5 2 Hee PATE 


(AMEE GEA PE, SRE AE Pe POR GEE AE AIL, EER 
的 维度 为 R“ “< ，C 表 示 卷 积 核 的 个 数 ， 将 输入 与 每 个 卷 积 核 的 结果 拼接 在 一 起 ， 得 到 
多 通道 卷 积 的 输出 HER- “> 。 


疮 积 完成 后 ， 通 毅 会 为 每 个 特征 图 加 一 个 俩 置 ， 如 了 式 〈3.7) H: 


Hn = b+ > y A aia :° G ( i a ) 


i=- 5] j=- 4] 


AMERRE OI PAR CTE. ZB OTA ERIC, ERAT 
Ro 进行 卷 积 运算 ， 再 加 上 偏 置 ， 将 会 得 到 输出 HERN”W*“， 该 过 程 中 引入 的 参数 
为 卷 积 核 与 偏 置 ， 参 数 总 量 为 : kxCxC'+C'。 


在 单 通 庆 郑 积 中 我 们 讲 过 ， 郑 积 核 大 小 、 填 充 和 步 长 都 会 影响 叙 积 和 输出 的 维度 。 假 设 
输入 维度 为 HxXWxC， 若 积 核 的 大 小 为 k， 填 充值 为 p， 步 长 为 s， 输 出 的 特征 图 为 
H'xW'xC'"， 那 么 它们 之 间 的 关系 可 以 通过 式 (3.8) 给 定 ，W' 的 计算 方式 也 相同 : 


(3.8 ) 


3.1.3 WM 


池 化 操作 的 主要 目的 是 降 维 ， 以 降低 计算 量 ， 并 在 训练 初期 提供 一 些 平移 不 变性 由。 
音 用 的 两 种 池 化 操作 是 平均 池 化 和 最 大 值 池 化 。 


池 化 操作 融 是 使 用 一 个 固定 大 小 的 清 窗 在 输入 上 清 动 ， 每 次 将 请 窗 内 的 元 系 聚 合 为 一 
个 值 作为 输出 。 根 据 聚 合 方式 的 人 不同， 可 以 分 为 平均 池 化 和 最 大 值 池 化 ， 如 图 3-6 所 示 。 


滑 窗 的 大 小 k《〈 假 设 滑 窗 的 长 和 宽 相 等 ) 和 滑动 的 步 长 s 都 会 影响 最 终 的 输出 。 通 常 取 
k=2x2， 步 长 与 清 窗 大 小 相等 ，s=2。 对 于 多 通道 的 输入 ， 池 化 是 逐 通 道 进行 的 ， 因 此 不 


会 改变 输入 的 通道 数 。 对 于 输入 XE RH“w“C， 经 过 上 述 池 化 操作 后 ， 输 出 为 凡 ER ”， 
一 般 来 说 ， 对 于 任意 大 小 的 滑动 窗口 和 步 长 ， 可 以 使 用 式 (3.8) 进行 
计算 。 





a) 平均 池 化 b) 最 大 池 化 
图 3-6 平均 字 化 与 最 大 池 化 过 程 示意 图 


3.2” 卷 积 神经 网 络 


耸 积 神经 网 络 是 通过 将 卷 积 层 与 池 化 层 进行 扒 登 得 到 的 。 本 克 将 以 一 个 具体 的 结构 为 
例 讲解 卷 积 神经 网 络 ， 然 后 介绍 卷 积 神经 网 络 的 特点 ， 以 及 如 何 理解 卷 积 神经 网 络 。 


3.2.1 HARIRA PA Ze ZY 


我 们 以 AlexNeti” 为 例 介绍 卷 积 神经 网 络 的 结构 。AlexNet 是 由 深度 学 习 的 莫 基 者 
Hinton 和 他 的 学 生 Alex Krizhevsky 设 计 的 ， 于 2012 年 获得 了 ImageNet 苋 赛 的 冠军 ， 比 第 二 
名 的 错误 率 降 低 了 10% 以 上 ， 和 受 动 一 时 ， 也 由 此 开局 了 这 度 学 习 的 娄 发 阶段 。AlexNet 可 
以 说 是 深度 疮 积 神经 网 络 的 蜡 祖 ， 相 比 之 前 的 一 些 若 积 神经 网 络 ， 它 最 显著 的 特点 是 层 炊 
更 深 、 参 数 规模 更 大 。 


AlexNet 由 5 个 卷 积 层 、2 个 池 化 层 、3 个 全 连接 层 组 成 。 受 限于 当时 的 硬件 条 件 ， 单 个 
GPU 上 无 法 运行 这 种 规模 的 模型 ， 因 此 作者 将 模型 进行 了 拆 分 并 分 别 放 在 两 个 GPU 上 运 
Ha 为 了 方便 介绍 ， 我 们 将 结构 进行 了 融合 ， 如 图 3-7 所 示 ， 下 面 我 们 来 看 每 一 层 的 具体 


输入 层 : 是 224x224x3 大 小 的 图 像 。 


第 一 层 : 卷 积 层 ， 卷 积 核 大 小 为 11x11， 输 出 为 96 个 特征 图 ， 输 入 为 3 个 通道 ， 卷 积 
核 的 维度 为 R11x11x3x96， 同 时 滑动 步 长 stride=4， 填 充 padding=2， 那 么 输出 的 特征 图 大 小 
可 以 通过 式 (3.8) 计算 得 到 ， 如 式 (3.9) 所 示 ， 因 此 输出 的 特征 图 为 H ©? E R355596, 
卷 积 之 后 使 用 ReLU 激 活 函 数 。 


HH — WY — 


ZARA isss (3.9) 


第 二 层 : 闻 化 屋 ， 使 用 的 是 最 大 值 池 化 ， 其 中 池 化 窗口 大 小 为 3x3， 步 长 为 2， 使 用 
与 大 积 类 似 的 方式 ， 可 以 计算 得 到 输出 大 小 为 (55-3) /2+1=27， 因 此 池 化 层 输出 为 


H (2) © R27%27%96. 


第 三 层 : 卷 积 层 ， 卷 积 核 大 小 为 5x5， 输 出 256 个 特征 图 ， 因 此 卷 积 核 的 维度 为 
R5x5x96x256， 滑 动 步 长 stride=1， 填 充 padding=2， 输 出 的 特征 图 为 了 S? E R227*96。 同 
样 ， 卷 积 之 后 使 用 ReLU 汲 活 函 数 。 


第 四 层 : 最 大 值 池 化 ， 窗 口 大 小 为 3x3， 步 长 为 2， 输 出 为 H SP ER13*13x256, 

第 五 到 第 七 层 ; 都 是 卷 积 层 ， 其 中 卷 积 核 大 小 为 3x3， 输 出 的 特征 图 分 别 为 384、 
384、256， 滑 动 步 长 stride=1， 填 充 padding=1， 因 此 第 七 层 输 出 正 “7”ER13x13x256。 同 之 
前 的 结构 ， 卷 积 之 后 都 使 用 ReLU 激 活 函数 。 

第 八 层 : 池 化 层 ， 窗 口 大 小 为 3x3， 步 长 为 2， 输 出 为 H “3” © RO%6%256, 

最 后 三 层 : 全 连接 层 ， 将 卷 积 的 输出 H (© ER6x6256 展 平 ， 得 到 全 连接 层 的 输入 维度 


为 R316， 三 层 全 连接 的 神经 元 个 数 为 4096、4096、1000。 最 终 得 到 1000 维 的 输出 用 于 图 
像 分 类 。 
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图 3-7 ”AlexNet 结 构图 


对 于 AlexNet 来 说 ， 除 了 设计 了 这 样 的 结构 之 外 ， 还 提出 了 两 个 重要 的 改进 : 第 一 ， 
用 ReLU 作 为 激活 图 数 ， 以 解决 梯度 消失 的 问题 ， 这 在 第 2 草 中 已 经 介绍 过 ; 第 二 ， 使 用 
Dropout 机 制 来 防止 过 拟 合 。Dropout 十 通过 在 训练 时 随机 地 将 特征 几 的 部 分 位 置 置 0， 相 
role Mala 强迫 模型 基于 剩 下 的 特征 进行 正确 的 推 亲 ， 以 学 习 到 更 加 鲁 棒 和 有 具有 
判 列 性 的 特征 。 


苍 积 神经 网 络 的 结构 一 般 可 以 分 为 两 个 部 分 : 一 部 分 是 由 郑 积 层 和 池 化 层 交 将 扒 登 构 
成 的 骨干 网 络 ， 它 主要 用 于 从 输入 中 提取 丰富 的 特征 ， 为 一 部 分 是 全 连接 屋 ， 它 将 苍 积 得 
到 的 特征 图 展 平 ， 也 融 是 说 丢 径 了 特征 图 的 空间 信息 ， 它 的 主要 作用 是 聚合 全 局 信息 并 将 
其 映射 到 得 出 空间 ， 比 如 AlexNet 殉 是 用 于 分 关 。 一 般 的 郑 积 结构 也 是 由 这 两 部 分 构成 
的 。3.4 市 中 将 介绍 更 多 的 改进 结构 。 


[1] 图 片 是 通过 https://github.com/HarisIqbal88/PlotNeuralNet 生 成 的 。 


3.2.2” 卷 积 神经 网 络 的 特点 
卷 积 神经 网 络 具 有 以 下 3 个 特点 : 局 部 连接 、 权 值 共享 、 层 次 化 表达 。 
C1) 局 部 连接 


由 于 图 像 通常 具有 局 部 相关 性 ， 因 此 卷 积 计算 每 次 只 在 与 卷 积 核 大 小 对 应 的 区 域 进 
行 ， 也 就 是 说 输入 和 输出 是 局 部 连接 的 。 如 果 使 用 多 层 感 知 器 来 处 理 图 像 ， 一 种 简单 的 思 
路 是 将 多 维度 的 输入 图 像 变 换 为 一 个 同 量 并 作为 多 层 感 知 右 的 输入 ， 对 于 大 小 为 
224x224x3 的 图 像 ， 拉 平 为 一 个 问 量 作为 输入 将 会 需要 150528 个 神经 元 。 如 果 第 一 个 隐藏 
层 神经 元 数量 为 32， 那 么 将 会 引入 480 万 参数 ， 这 么 大 的 参数 量 会 带 来 两 个 问题 : 第 一 ， 
计算 复杂 度 高 ; 第 二 ， 有 过 拟 合 的 风险 。 如 果 使 用 3x3 的 卷 积 核 ， 输 出 的 通道 数 为 32， 引 
入 的 参数 量 在 1000 以 下 ， 远 远 小 于 多 层 感 知 器 需要 的 参数 。 


苍 积 操作 与 生物 学 上 的 一 些 概念 很 类 似 ， 在 神经 系统 中 ， 神 经 元 退 当 只 啊 应 一 部 分 的 
刺激 信号 ， 比 如 视网膜 受到 光 的 刺激 ， 回 视觉 芭 层 传递 信号 ， 通 利 只 有 一 部 分 视 沉 皮层 神 
经 元 会 啊 应 这 个 信 写 ， 这 种 机 制 称 为 局 部 感知 。 对 于 敬 积 来 说 也 是 一 样 的 ， 连 续 使 用 两 层 
3x3 大 积 的 ， 它 的 输出 仅 与 5x5 大 小 的 输入 区 域 有 关 ， 如 图 3-8 所 示 。 这 个 区 域 称 为 感知 
野 ， 它 指 的 是 特征 图 上 一 个 输出 与 多 大 区 域 的 输入 有 关 ， 在 深度 苍 积 神经 网 络 中 ， 有 效 的 
感知 时 通常 比 这 个 区 域 更 小 。 





图 3-8 ”感知 时 示意 图 


(2) PERE 


巷 积 的 第 二 个 特征 是 权 值 共 圣 。 在 图 像 中 ， 不 同 的 区 域 使 用 相同 的 否 积 核 参数 ， 这 一 
方面 减少 了 参数 量 ， 男 一 方面 带 来 了 平移 不 变性 。 平 移 不 变性 指 的 是 不 省 输入 如 何平 移 ， 
总 能 够 得 到 相同 的 输出 。 比 如 ， 对 于 左右 两 只 完全 相同 的 眼睛 ， 使 用 相同 的 苍 积 核 ， 在 眼 
青 对 应 的 区 域 进 行 卷 积 ， 都 能 够 输出 相同 的 结果 ， 这 是 由 权 值 共享 机 制 带 来 的 。 另 外 ， 池 
化 也 市 来 了 一 些 平 移 不 变性 ， 比 如 最 大 值 池 化 ， 因 为 它 是 对 感知 对 的 信息 使 用 最 大 值 进 行 
聚合 ， 当 输入 在 感知 野 内 变化 时 ， 池 化 层 的 输出 也 不 会 改变 。 


(3) 层次 化 表达 


人知 积 网 络 的 第 三 个 特征 是 可 以 学 到 层次 化 的 表达 。 郑 积 网 络 通过 和 夫 积 层 堆 登 得 到 ， 每 
一 层 都 是 对 前 一 层 进 行 变 换 ， 提 取 的 特征 从 低层 次 到 高 层次 ， 逐 渐变 得 抽象 。 如 疼 3-9 所 
示 ， 低 层次 的 知 积 一 般 是 提取 一 些 简单 的 特征 ， 比 如 颜色 、 边 缘 、 角 等 ， 它 的 感知 野 相对 
较 小 ， 对 应 的 都 是 局 部 性 特征 ,中间 层次 的 孝 积 得 到 的 特征 开始 变 得 抽象 ， 比 如 纹理 结构 
等 ;部 层次 的 疮 积 得 到 的 特征 更 加 抽象 ， 与 图 像 的 语义 、 有 共 体 包含 的 目标 相关 ， 由 于 它 的 
感知 野 更 大 ， 因 此 它 是 更 加 全 局 性 的 特征 。 高 层次 的 特征 是 在 低层 级 特征 的 基础 上 得 到 
的 ， 通 单 来 说 ， 低 层次 的 特征 更 加 通用 ， 高 层次 的 特征 与 具体 的 任务 关联 性 更 强 。 





图 3-9 ”层次 化 表达 示意 图 站 


3.3 ”特殊 的 卷 积 形式 


除了 3.1 市 中 介绍 的 标准 的 苍 积 方式 ， 还 有 一 些 特殊 的 苍 积 在 各 种 任务 中 锐 提 出 ， 本 
市 介绍 几 种 第 用 的 其 他 苍 积 形式 。 





3.1.1 1x1 卷 积 


1x1 卷 积 ， 顾 名 思 义 ， 该 卷 积 核 的 大 小 为 1。 它 是 在 论文 外 中 被 提出 来 的 ， 并 被 后 来 的 
一 些 模型 采用 。1x1 郑 积 的 过 程 如 图 3-10 所 示 ， 与 前 面 介 绍 的 郑 积 操作 设 有 本 质 区 别 。 


读者 或 许 会 好 奇 ，1x1 卷 积 有 用 吗 ? 通常 1x1 卷 积 有 以 下 功能 : 一 是 用 于 信息 聚合 ， 
同时 增加 非 线 性 ，1x1 大 积 可 以 看 作 是 对 所 有 退 亿 的 信息 进行 线性 加 权 ， 即 信息 聚合 ， 同 
时 ， 在 卷 积 之 后 可 以 使 用 非 线 性 激活 ， 可 以 一 定 程度 地 增加 模型 的 表达 能 力 ; 二 是 用 于 通 
道 数 的 变换 ， 可 以 增加 或 者 减少 输出 特征 图 的 通道 数 。 





图 3-10”1x1 卷 积 示意 图 


3.3.2 Fea 


转 置 卷 积 (Transposed Convolution) Pl, EH XDR AY AAD. TEM 
Ela EM ARE RAR EFTIR, JBI RAI OT SET Ai, A 
图 3-11 所 示 ， 其 中 属于 人 的 像素 需要 分 类 为 同一 类 别 ， 属 于 小 鹿 部 分 的 像 系 需 要 分 类 为 同 


Ril 











图 3-11 we Copel 
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像素 空间 ， 以 对 每 个 像素 的 具体 类 别 进行 判断 。 其 中 的 解码 器 部 分 我 们 无 法 使 用 前 面 介 绍 
的 标准 郑 积 ， 因 为 前 面 的 登 积 操作 不 会 使 得 特征 图 的 长 宽 维 度 增 加 ， 而 转 置 耸 积 则 相反 ， 
它 可 以 完成 长 宽 维 度 的 增加 ， 将 编码 的 低 维特 征 逐 步 映 射 回 像 系 空 间 。 


如 图 3-12 中 的 a 图 所 示 ， 假 设 输入 是 2x2， 卷 积 核 大 小 为 3x3， 转 置 符 积 相当 于 在 输入 
外 补充 了 两 圈 0 元 素 ， 然 后 再 进行 标准 疮 积 ， 得 到 了 4x4 的 输出 。 与 耸 积 类 似 ， 转 置 卷 积 
也 可 以 设置 填充 padding 和 步 长 stride， 但 与 郑 积 中 的 意义 不 太 相 同 。 对 于 步 长 为 s， 孝 积 核 
大 小 为 k 的 转 置 郑 积 ， 在 进行 计算 时 将 默认 在 输入 四 周 填 序 k-1 疾 0， 而 设置 的 padding， 将 
会 影响 最 后 填充 的 大 小 ， 有 具体 的 填充 值 由 k-1-p 给 出 。 对 于 步 长 s， 它 是 在 卷 积 元 素 之 间 插 
入 s-1 个 0， 如 图 3-12 中 的 b 图 所 示 。 输 入 为 2x2，p=0， 步 长 s=2， 卷 积 之 后 得 到 输出 为 
DXDo。 





a) stride = 1 b) stride = 2 


图 3-12” 转 置 卷 积 示 例 


对 于 转 置 卷 积 中 输入 维度 、 卷 积 核 大 小 、 填 充 以 及 步 长 与 输出 维度 的 关系 ， 可 以 通过 
式 (3.10) 来 确定 : 


H'= s(H-1)-2p +k (3.10) 


[1] 图 片 来 源 https://ccvl.jhu.edu/datasets/。 


3.3.3 AAR 


空洞 卷 积 (Dilated Convolution) 器 通 过 在 卷 积 核 元 素 之 间 插 入 空格 来 “扩张 > 卷 积 核 ， 
其 中 有 个 超 参数 用 于 控制 扩张 的 程度 ， 称 为 空洞 率 r (dilation rate) ， 指 的 是 在 卷 积 核 中 
间 插 入 rz1 个 0， 因 此 对 于 原先 大 小 为 k 的 郑 积 核 ， 在 使 用 空洞 着 积 之 后 实际 的 眷 积 核 大 小 
变 为 k+ (k-1) (r1) 。 由 于 郑 积 核 扩 大 ， 感 知 野 也 会 扩大 。 因 此 空洞 知 积 是 一 种 不 增加 
参数 量 而 可 以 快速 扩大 感知 野 的 有 效 方式 。 





图 3-13 ”空洞 卷 积 核 


对 于 k=3 的 大 积 核 ， 当 空洞 座 r 值 分 别 为 2，3 时 ， 实 际 的 车 积 核 大 小 分 别 为 5 和 7， 如 图 
3-13 所 示 。 对 于 大 小 为 3x3 的 输出 区 域 ， 上 述 三 种 知 积 核对 应 的 感知 野 大 小 分 别 为 : 


当 r=1 时 ， 感 受 野 是 3; 
当 r=2 时 ， 感 受 野 是 7; 
当 r=3 时 ， 感受 时 是 11。 


当 扒 登 多 层 空 洞 卷 积 组 成 的 层 时 ， 感 知 野 会 迅速 扩大 ， 以 获得 更 多 的 局 部 信息 。 


3.3.4 “分 组 卷 积 


分 组 郑 积 最 早 是 在 AlexzNet 中 出 现 的 ， 当 时 训练 AlexzNet 时 疮 积 操作 不 能 全 部 放 在 同一 
个 GPU 中 进行 处 理 ， 因 此 作者 把 特征 图 分 给 了 多 个 GPU 来 处 理 ， 最 后 骨 把 多 个 GPU 的 处 理 
结果 融合 ， 这 实际 上 束 古 分 组 大 积 。 下 面 我 们 通过 举例 来 说 明 。 


如 图 3-14 所 示 ， 将 输入 沿 着 深度 方向 划分 为 g 组 ， 每 一 组 由 Cj/g 个 通道 构成 ， 同 样 ， 

对 于 输出 通道 也 进行 类 似 的 拆 分 ， 得 到 g 组 ， 每 一 组 有 Cy/g 个 输出 通道 ， 将 输入 的 分 组 与 

输出 的 分 组 对 应 起 来 ， 分 别 使 用 卷 积 进行 计算 。 这 样 ， 对 每 一 组 卷 积 来 说 ， 需 要 的 卷 积 核 
Ek xox 

EKR ” ““ ， 即 每 组 中 卷 积 核 的 深度 由 原来 的 Cj 变 成 了 Ci/g， 卷 积 核 的 个 数 也 变 成 

了 Cg 个 ， 而 不 是 原来 的 C; 个 了 。 用 每 组 的 卷 积 核 同 它 对 应 组 的 输入 卷 积 ， 得 到 输出 以 

后 ， 再 拼接 起 来 ， 最 终 输 出 的 通道 仍旧 是 C5 个 。 也 就 是 说 ， 我 们 可 以 并 行 计算 g 个 相同 的 


eee paa J (kxkx CY xP x g oe a en 
车 积 过 程 。 使 用 的 参数 量 将 变 为 g sg “， 即 参数 量 相 比 标准 卷 积 将 减少 g 
Le 





图 3-14 ”分 组 苍 积 的 处 理 过 程 


3.3.5 REID A ESR 
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输入 通道 设 是 了 一 个 郑 积 核 分 别 进行 郑 积 。 由 于 这 种 卷 积 只 利用 了 单个 输入 通道 的 信息 ， 
即 只 使 用 了 空间 位 置 上 的 信息 ， 而 没有 使 用 通过 则 的 信息 ， 因 此 ， 其 后 通 第 使 用 1x1 苍 积 
来 增加 通道 间 的 信息 。 


深度 可 分 离 卷 积 相 比较 于 标准 卷 积 ， 不 仅 减 少 了 参数 量 ， 而 且 可 以 降低 计算 量 、 提 高 
运算 效率 ， 因 此 这 类 卷 积 通常 用 于 对 速度 有 要 求 的 卷 积 结构 设计 中 ， 在 MobileNetl81、 
ShuffleNet3 等 模型 上 都 有 应 用 。 








3.4 着 积 网 络 在 图 像 分 类 中 的 应 用 


短 短 几 年 间 ， 深 度 学 习 在 计算 机 视 党 领域 取得 了 令 人 瞩目 的 成 绩 。 各 种 图 像 分 类 模型 
日 继 被 提出 ， 从 AlexNet 到 VGG， 从 GoogleNet v1 到 v4， 再 到 后 来 的 ResNet、DenseNet 
等 ， 不 汤 地 变化 ， 不 断 地 刷新 成 绩 。 这 一 节 ， 我 们 介绍 其 中 几 种 典型 的 图 像 分 类 框 染 。 


3.4.1 VGG 


VGGILH0 是 牛津 大 学 视觉 组 〈Visual Geometry Group) 在 2014 年 提出 来 的 ， 并 取得 了 
ImageNet 2014 比 赛 分 类 组 的 第 二 名 和 定位 任务 的 第 一 名 。 


VGG 基 于 AlexNet 进 行 了 一 些 改进 ， 主 要 体现 在 采用 了 3x3 的 小 尺寸 郑 积 核 ， 并 且 卷 
只 的 步 长 为 1， 这 样 得 到 的 两 层 卷 积 感知 野 为 5， 与 直接 使 用 一 层 5x5 的 卷 积 相 比 ， 参 数量 
更 少 。 另 外 ， 它 去 掉 了 LRN 层 ， 作 者 在 实验 中 发 现 其 实 LRN 的 作用 并 不 是 很 大 。VGG 还 
有 一 个 结构 特点 是 重复 使 用 简单 的 卷 积 块 (Convolution Block) 来 堆 著 得 到 模型 ， 它 的 基 
础 卷 积 块 为 两 层 或 多 层 卷 积 加 上 一 层 池 化 层 。 


VGG 有 两 个 常用 的 模型 VGG16 和 VGG19， 其 中 VGG16 的 结构 如 图 3-15 所 示 。VGG16 
与 VGG19 的 天 别 在 于 茶 些 基础 块 中 的 卷 积 层 数 不 一 样 。VGG 由 于 其 结构 简洁 、 效 末 较 
好 ， 直 到 现在 也 当当 被 用 作 其 他 任务 的 肯 干 网 络 。 
































图 3-15 VGG16 的 网 络 结构 


3.4.2 Inception% 7#] 





取得 ImageNet 20144} KEZ MROK EA aK SEL HGoogleNet, ZAM ZEA Zi 
构 是 Inception 块 ， 与 YGG 构 建 的 基础 块 不 同 ，Inception 块 使 用 了 多 分 支 及 不 同 尺度 的 卷 积 
核 。Inception 结 构 也 经 过 了 多 次 优化 ， 得 到 了 几 个 不 同 的 版 本 。 











1.Inception V1 


Inception V110 首 次 使 用 了 并 行 的 结构 。 如 网 3-16 所 示 ， 每 个 Inception 块 使 用 多 个 大 
小 不 同 的 着 积 核 ， 这 与 传统 的 堆 车 式 网 络 每 层 只 用 一 个 尺寸 的 着 积 核 的 结构 完全 不 同 。 
Inception 块 的 多 个 不 同 的 卷 积 核 可 以 提取 到 不 同类 型 的 特征 ， 同 时 ， 每 个 郑 积 核 的 感知 时 
也 不 一 样 ， 因 此 可 以 获得 多 尺度 的 特征 ， 最 后 再 将 这 些 特征 拼接 起 来 。 


如 果 单 纯 地 引入 多 个 尺寸 的 知 积 核 会 引入 大 量 的 参数 ， 耗 费 大 量 的 计算 资源 ， 为 了 降 
低 计 算 成 本 ， 可 以 采用 的 改进 方式 是 在 3x3 苍 积 和 5x5 符 积 之 前 引入 1x1 苍 积 ， 以 降低 输入 
的 通道 数 ， 为 外 在 池 化 层 之 后 也 使 用 1x1 敬 积 进 行 降 维 ， 改 进 后 的 Inception 块 如 图 3-17 所 
示 。 我 们 来 对 比 一 下 改进 前 与 改进 后 的 参数 量变 化 ， 色 略 挥 偏 略 项 ， 输 入 输出 的 通过 数 如 
图 3-17 所 示 ， 改 进 前 需要 的 参数 量 如 式 (3.11)〉 所 示 ， 改 进 后 需要 的 参数 量 如 式 (3.12) 
所 示 ， 可 以 看 出 改进 前 的 参数 量 是 改进 后 的 2.3 倍 ， 并 且 改 进 前 池 化 层 的 输出 通道 数 与 输 
入 通道 数 相同 ， 与 其 他 卷 积 结 末 拼接 后 ， 输 出 的 通道 数 将 会 总 剧 增 大 。 


#paraml = 1X1x*192x64+3X3X192X128+5X5X192 X32 
= 387072 (3.11) 





#param2 = 1X1xX192xX64+1x1x*192X96+3X3X96X 128 
FIKIAIGZXIO +S XS ALO X32 F 1X IX 192X32 
= 103326 (3,12 ) 


拼接 输出 


3x3 最 大 池 化 
C= 192 


stride= 1 





输入 层 
C= 192 


图 3-16 ”最 和 初 的 Inception 模 块 


GoogleNet 用 Inception 块 构成 堆 厂 ， 男 外 为 了 绥 解 梯度 消失 问题 ， 在 网 络 的 中 间 部 分 
加 入 了 辅助 分 类 器 。 


2.Inception V2 


Inception V2 由 主要 针对 Inception V1 的 卷 积 核 设计 进行 改进 ， 将 大 尺寸 的 卷 积 进行 分 
fe, Wye Zaire, BERT PEAS AR PE 





图 3-17 ”改进 后 的 Inception V1 模块 


共 体 来 说， 将 5x5 孝 积 用 两 个 3x3 疮 积 进行 代 蔡 ， 这 样 在 不 改变 感知 野 大 小 的 情况 下 
使 用 的 参数 量 会 更 少 ， 如 图 3-18 中 的 图 a 所 示 ， 与 VGG 的 思路 关 似 。 万 外 ， 对 于 未 些 nxn 
疮 积 ， 捉 出 使 用 一 个 1xn 疮 积 和 一 个 nx1 和 疮 积 来 代 苦 ， 将 原来 用 nxn 和 大 积 一 次 性 提取 横 癌 和 
纵 问 的 信息 解 簿 开 来 ， 移 捉 取 横 加 的 信息 ， 然 后 进行 纵 同 的 交叉 ， 如 图 3-18 中 的 图 b 所 
示 。 这 种 方 却 减 少 了 参数 ， 降 低 了 过 拟 合 的 风险 ， 同 时 增加 了 一 层 非 线性 层 ， 一 定 程度 上 
也 扩展 了 模型 的 表达 能 





a) 5x5 卷 积 分 解 为 两 个 3x3 b) 3x3 卷 积分 解 为 1x3 和 3 x 1 卷 积 


图 3-18” 卷 积分 解 示意 图 站 


[1] 图 片 来 源 : https://arxiv.org/pdf/1512.00567. pdf. 


3.4.3 ResNet 


残 差 网 络 (Residual Network, ResNet) 13 的 提出 对 深度 学 习 来 说 又 是 一 大 飞跃 。 它 
在 ILSVRC 2015 和 COCO 2015 上 取得 了 非常 好 的 成 绩 ， 并 再 一 次 刷新 了 ImageNet 的 历史 。 
它 首 次 将 深度 网 络 的 深度 增加 到 了 上 昕 层 并 成 功 地 进行 了 训练 ， 后 来 的 很 多 网 络 结构 都 受 
到 了 它 的 启发 。ResNet 可 以 说 是 目前 最 流行 的 网 络 结构 之 一 。 


网 络 的 深度 对 模型 的 性 能 来 说 很 重要 ， 随 大 网络 层 数 的 增加 ， 模 型 可 以 进行 更 加 复 条 
的 特征 模式 提取 ， 所 以 直观 上 我 们 会 觉得 模型 越 深 效果 会 越 好 。 但 是 通过 实验 发 现 ， 随 
看 网 络 的 加 深 ， 训 练 集 的 准确 率 反 而 下 降 了 ， 如 图 3-19 所 示 。 在 训练 集 和 测试 集 上 ，56 层 
的 网 络 比 20 层 网 络 的 效果 更 和 又， 这 不 是 因为 模型 过 拟 合 了 ， 这 个 问题 称 为 模型 退化 问题 
(degradation problem) ， 它 是 由 于 优化 困难 导致 的 。 








20 20; 
X > 56-layer 
nk OK 20-layer 
se 10 4 10 
= 56-layer = 
20-layer 
0 [ [ | 0: | ~ l I 1 I 
0 ] 2 3 4 5 6 0 ] 2 3 4 5 6 
KERR (e4 ) 迭代 次 数 (le4 ) 


图 3-19 ”20 层 网 络 和 56 层 网 络 在 CIFAR-10 上 的 误差 中 
残 差 网 络 从 网 络 结构 上 进行 改进 以 解决 上 述 问 题 ， 它 在 一 个 块 的 输入 和 输出 之 间 引 入 
一 条 直接 的 通路 ， 这 条 通路 称 作 跳跃 连接 (skip connection) 。 一 个 典型 的 残 差 块 如 网 3- 
20 所 示 。 
输入 为 Hi;， 输 出 为 H， 假 设 经 过 的 卷 积 等 变换 用 EF 表 示 ， 那 么 输入 和 输出 的 关系 如 
zh (3.13) 所 示 : 


H, 本 Ai; ar F(T; _;) ( 3. 13 ) 





Hy 





Batch Norm 














H, 


图 3-20 ”ResNet 网 络 模型 


跳跃 连接 的 引入 使 得 信息 的 流通 更 加 顺畅 ， 表 现在 以 下 两 个 方面 : 一 十 在 前 癌 传 揪 
时 ， 将 输入 与 输出 的 信息 进行 融合 ， 能 够 更 有 效 地 利用 特征 : 二 是 在 反 回 传播 时 ， 总 有 一 
部 分 柳 度 通过 跳跃 连接 反 传 到 输入 上 ， 这 缓解 了 梯度 消失 的 问题 。 


此 外 ， 研 究 上 4 表明 深度 残 差 网 络 结构 上 可 以 看 作 多 个 浅 层 结构 的 集成 。 研 究 呈 表明 
使 用 跳跃 连接 的 网 络 在 损失 函数 的 曲面 上 更 平滑 ， 训 练 优化 更 加 容易 ， 得 到 的 模型 泛 化 性 
能 更 好 ， 如 图 3-21 所 示 。 








图 3-21 “ 带 跳跃 连接 结构 的 损失 曲面 加 


基于 残 甜 网 络 的 思想 ， 出 现 了 很 多 的 改进 模型 ， 比 如 将 跳跃 连接 用 到 极致 的 
DenseNetll61， 融 合 了 残 差 结构 的 Inception-ResNetlL 1。 
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PAE ”表示 学 习 


何 为 表示 ? 通俗 地 理解 就 是 特征 ， 在 第 2 章 机 占 和 学 习 尝 程 中 ， 所 a 到 机 占 学 习 的 第 一 步 
是 从 数据 中 提取 特征 ， 模 型 效果 的 好 坏人 很 大 程度 上 取决 于 所 提取 特征 的 质量 。 如 下 有 一 类 
方法 可 以 目 动 地 从 数据 中 去 学 习 “ 有 用 ”的 特征 ， 并 可 以 直接 用 于 后 续 的 其 体 任务 ， 这 类 方 
法 统称 为 表示 学 习 。 





41 表示 学 习 


4.1.1 表示 学 习 的 意义 


机 器 学 习 算法 的 性 能 严重 依赖 于 数据 的 特征 ， 因 此 在 传统 机 器 学 习 中 ， 大 部 分 的 工作 
都 在 于 数据 的 处 理 和 转换 上 ， 以 期 得 到 好 的 特征 使 得 机 器 学 习 算法 更 有 效 。 这 样 的 特征 工 
程 是 十 分 费时 费力 的 ， 这 也 暴露 了 传统 机 器 学 习 方 法 中 存在 的 问题 ， 这 些 方法 没有 能 力 从 
数据 中 去 获得 有 用 的 知识 ， 而 特征 工程 的 目的 则 是 将 人 的 先 验 知识 转化 为 可 以 被 机 器 学 习 
算法 识别 的 特征 ， 以 弥补 其 自身 的 缺点 。 


如 条 存 在 一 种 可 以 从 数据 中 得 到 有 判 列 性 特征 的 方法 ， 葡 会 减少 机 规 学 习 算 法 对 特征 
工程 的 依赖 ， 从 而 更 快 更 好 地 将 机 融和 学 习 应 用 到 更 多 的 领域 ， 这 束 是 表示 学 习 的 价值 。 那 
么 对 于 表示 学 习 来 说 ， 要 回答 以 下 3 个 问题 : 


C1) 如 何 判断 一 个 表示 比 另 一 个 表示 更 好 ? 
(2) WERI ERR? 
(3) 使 用 什么 样 的 目标 去 得 到 一 个 好 的 表示 ? 


什么 是 好 的 表示 ?这 个 问题 没有 固定 的 标准 。 通 党 来 说 ， 一 个 好 的 表示 首先 要 尺 可 能 
地 包含 更 多 数据 的 本 质 信息 ， 并 且 这 个 表示 能 耳 接 服务 于 后 续 的 具体 任务 。 计 算 机 看 到 的 
事物 与 人 上限 里 看 到 的 事物 是 不 一 样 的 。 比 如 对 于 图 像 来 说 ， 计 算 机 看 到 的 是 一 个 个 像素 
扩 ， 这 是 最 原始 的 数据 ， 单 独 去 关注 这 些 像 系 点 本 里 能 获得 的 信息 是 很 少 的 ， 而 人 在 判断 
图 像 内 容 的 时 候 ， 会 通过 一 些 融 层 的 抽象 语义 特征 来 判断 ， 这 之 间 的 看 距 称 为 语义 鸿沟 ， 
它 指 的 是 低层 次 特征 与 高 层次 抽象 特征 之 间 的 过 民 ， 如 图 4-1 所 示 。 而 一 个 好 的 表示 需要 
尽 可 能 地 描述 一 些 高 层次 的 抽象 特征 ， 以 便 后 续 的 模型 可 以 高 效 地 利用 这 个 特征 ， 减 小 后 
续 模 型 的 “压力 ?， 人 否则 ， 以 原始 数据 或 者 俩 低层 次 的 特征 作为 后 续 模 型 的 输入 ， 对 于 后 续 
模型 来 说 运行 起 来 束 会 非常 困难 。 因 此 一 个 好 的 表示 应 该 尽 可 能 地 减 小 这 个 语义 兽 沟 ， 所 
供 一 些 遍 层次 的 有 价值 的 特征 。 








低层 级 特征 ”< 语义 鸿沟 >| 高 层级 特征 











编 分 颜 纹 E 类 概 本 
码 Be ta, | BR aK 
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像素 级 数据 


图 4-1 语义 鸿沟 示意 图 


41.2 ”离散 表示 与 分 布 式 表示 


在 机 卓 学 习 中 ， 对 一 个 对 象 的 表示 有 两 种 津 见 的 方式 。 最 简单 且 不 需要 学 习 的 方式 束 
是 独 热 问 量 编码 (one-hot〉， 它 将 研究 的 对 象 表示 为 回 量 ， 这 个 问 量 只 在 作 个 维度 上 值 
是 1， 其 余 维 度 上 值 全 为 0， 可 以 想象 有 多 少 种 类 型 ， 这 个 同 量 的 长 度 束 有 多 长 。 比 如 要 用 
这 种 方式 去 将 中 文 汉字 问 量 化 ， 假 设 所 有 的 中 文 汉 字 有 NN 个， 要 想 通 过 这 种 方式 去 表示 这 
些 汉字 ， 那 么 每 个 字 都 需要 一 个 N 维 的 向量 ， 总 共和 需要 NxN 大 小 的 算 阵 才能 禾 新 所 有 的 汉 
字 。 在 目 然 语言 处 理 中 ， 词 袋 模型 就 是 以 此 为 基础 构建 的 。 


而 分 布 式 表 示 员 则 不 同 ， 它 是 通过 某 种 方式 得 到 一 个 低 维 稠密 的 向 量 来 表示 研究 对 
象 ， 最 典型 的 例子 束 是 颜色 。 我 们 知道 任何 一 种 颜色 都 可 以 通过 红 、 芮 、 赣 3 种 颜色 混合 
得 到 ， 在 计算 机 中 也 通常 使 用 RGB 方 式 将 颜色 表示 为 一 个 三 元 组 ，RGB 构 成 的 色彩 空间 
可 以 用 图 4-2 表 示 ， 比 如 用 RGB 表示 粉色 、 浅 粉色 、 深 粉色 分 别 为 (255，182，193) 
(255, 192, 203) (255, 20, 147) 。 而 如 果 要 用 独 热 器 量 来 表示 这 些 闫 色 ， 对 于 256 级 
的 RGB 来 说 ， 总 共有 约 1678 万 种 色彩 (256°=16777216) ， 那 么 独 热 向 量 就 需要 16777216 
维 ， 其 中 只 有 某 个 位 置 上 值 为 1， 数 据 是 非常 高 维 日 稀疏 的 。 








图 4-2 ”颜色 空间 


独 热 问 量 非常 简单 ， 只 需要 列 出 所 有 可 能 的 值 束 可 以 得 到 ， 不 需要 学 习 过 程 。 但 是 它 
的 缺点 也 是 非常 明显 的 ， 它 假设 所 有 对 象 部 是 相互 独立 的 。 在 问 量 空间 中 ， 所 有 对 象 的 问 
量 痢 是 相互 正 交 的 ， 奢 么 它们 两 两 之 间 的 相似 度 为 0， 也 束 古 说 ， 这 些 对 象 之 间 没 有 任何 
关系 。 但 现实 生活 中 却 不 是 这 样 ， 比 如 上 面 担 到 粉色 和 浅 粉 色 ， 它 们 都 属于 粉色 系 ， 那 么 
它们 之 间 的 相似 度 应 该 比 粉 色 与 黑色 之 间 的 相似 度 更 高 ， 但 是 独 热 癌 量 并 不 能 表现 出 这 一 
氮 ， 它 丢失 了 大 量 的 语义 信息 。 此 外 ， 独 热 癌 量 的 维度 可 能 会 非常 高 并 且 非 名 稀世 ， 直 接 
使 用 的 话 也 非常 困难 。 


而 分 布 式 表 示 则 表现 出 很 好 的 性 质 。 一 方面 ， 分 布 式 表示 的 维度 可 以 很 低 ， 用 三 维 整 
可 以 表示 1678 万 种 颜色 ， 能 有 效 解决 数据 稀疏 问题 。 另 一 方面 ， 它 能 保留 一 些 语义 信息 ， 
比如 可 以 计算 出 粉色 与 浅 粉 色 和 深 粉 色 之 间 的 余弦 相似 度 分 别 为 99.97% 和 89.39%， 而 与 
黑色 [RGB 为 《0，0，0) ] 的 相似 度 为 0， 这 与 我 们 的 认 知 是 一 致 的 ， 也 就 是 说 分 布 式 表 示 
可 以 包含 语义 的 特征 ， 这 也 是 分 布 式 表示 在 很 多 领域 都 有 应 用 的 原因 所 在 。 





4.1.3 mim le RA eS Fd TK 


TR ES) AA AS fe) FRSA e A, EY ARRIBA KUL, FESHLAS 
学 习 需 要 人 工 提 取 一 些 摘 述 性 的 特征 ， 比 如 SIFT 特 征 ， 即 前 面 提 到 的 特征 工程 ， 然 后 使 
用 分 类 器 进行 图 像 类 别 的 判断 ， 模 型 性 能 的 好 坏 很 大 程度 上 取决 于 所 提取 特征 的 好 坏 。 而 
使 用 卷 积 神经 网 络 可 以 解决 这 个 问题 ， 比 如 AlexNet， 它 以 原始 图 像 作 为 输入 ， 而 不 是 特 
征 工 程 得 到 的 特征 ， 而 输出 直接 是 预测 的 疾 别 ， 这 种 学 习 方 式 称 为 器 到 问 学 习 Cend-to- 
end learning) 。 对 于 上 述 的 例子 ， 我 们 可 以 这 么 理解 ， 郑 积 网 络 的 前 面部 分 主要 是 完成 目 
动 特征 提取 ， 人 然后 将 提取 的 特征 送 入 到 分 类 絮 中 进行 分 类 ， 换 人 句 话说 ， 卷 积 网 络 的 前 面部 
分 可 以 看 作 是 在 进行 表示 学 习 ， 即 疹 到 端 学 习 可 以 看 作 是 表示 学 习 与 任务 学 习 的 组 合 ， 但 
它们 不 是 完全 分 和 袭 的 。 有 具体 来 说 ， 它 们 是 联合 优化 的 ， 反 辐 传 播 算 法 将 误 关 从 输出 层 同 前 
传递 直到 输入 层 ， 优 化 算法 动态 地 调节 模型 参数 ， 使 得 模型 可 以 目 动 提取 到 与 任务 相关 的 
判别 性 特征 ， 这 显示 出 了 深度 学 习 模 型 相 比 于 其 他 方法 的 优越 性 。 


深度 学 习 模 型 的 另 一 个 优势 是 能 够 学 习 到 数据 的 层次 化 表达 ， 这 也 是 一 个 好 的 表示 需 
要 具备 的 性 质 。 如 3.2 节 介绍 的 卷 积 网 络 神 经 不 同 深度 的 层 可 以 提取 到 不 同 层次 的 表示 ， 
低层 的 知 积 主要 提取 低层 次 的 特征 ， 局 层 的 卷 积 主要 提取 抽象 的 、 与 任务 相关 的 特征 。 深 
度 学 习 模 型 是 层 与 层 的 堆 阁 ， 每 一 层 都 是 可 训练 的 ， 它 将 输入 的 特征 变换 为 更 抽象 的 特 
征 ， 位 于 低层 的 变换 得 到 基础 的 特征 ， 是 构成 高 层 抽 和 象 特征 的 基础 ， 这 与 宁 、 人 句子 、 文 章 
之 轩 的 关系 类 似 ， 字 构成 词 ， 词 构成 句 ， 句 构成 文章 。 因 此 对 于 低层 次 的 特征 来 说 ， 它 们 
更 加 通用 (general feature) ， 而 高 层次 的 特征 则 与 具体 的 任务 相关 。 可 以 基于 深度 学 习 的 
这 个 特性 进行 迁移 学 习 。 迁 移 学 习 指 的 是 将 已 经 学 习 过 的 知识 迁移 到 新 的 问题 中 去 ， 深 度 
学 习 在 该 方面 的 一 个 典型 应 用 是 微调 ， 即 以 在 其 他 数据 集 上 训练 好 的 模型 为 基础 ， 在 新 的 
数据 集 上 再 进行 调整 。 比 如 很 多 视 党 相关 的 任务 都 是 采用 在 ImageNet 上 预 训练 的 模型 ， 固 
定 住 一 些 着 积 层 ， 不 对 它们 进行 袖 上 度 更 新 ， 因 为 它们 提取 的 都 是 通用 的 特征 ， 只 对 高 层 的 
OR 
数据 调整 模型 。 


表示 学 习 的 任务 通常 是 学 习 这 样 一 个 映射 fs XR， 即将 输入 映射 到 一 个 稠密 的 
低 维 问 量 空间 中 。 在 接 下 来 的 两 节 我 们 将 介绍 两 种 典型 的 表示 学 习 方 法 ， 一 种 是 基于 重 构 
损失 的 方法 ; 一 种 是 基于 对 比 损失 的 方法 。 








4.2 2S RIAA TIE Bn ae 


深度 学 习 的 优势 在 于 自动 学 习 特 征 ， 卷 积 神经 网 络 利用 图 像 标签 进行 监督 ， 可 以 学 习 
到 有 判别 性 的 特征 以 对 图 像 进行 分 类 ， 它 将 表示 学 习 与 任务 学 习 结合 起 来 ， 是 一 种 有 监督 
学 习 。 自 编码 器 也 是 一 种 表示 学 习 模型 ， 但 它 不 是 利用 标签 信息 进行 监督 ， 而 是 以 输入 数 
据 为 参考 ， 是 一 种 无 监督 的 学 习 模 型 ， 它 可 以 用 于 数据 降 维和 特征 提取 。 


4.2.1 HER 


H mare TAE SPO) BALE AT RRF OD I, EEE Ps i A, We 
WARR EENET, | FM RP AE 8 TY RY Te A E TET EM. Me EB, € 
EH Fini are ES a ZA, ila A Bi PRP, PRS as HP Fe AIRE 
重 构 出 输入 数据 。 在 训练 完成 后 ， 使 用 编码 右 进 行 特征 所 取 。 这 种 编码 -解码 的 思想 在 很 
多 深度 学 习 模 型 中 都 有 体现 。 


最 简单 的 自 编 码 器 由 3 层 组 成 :1 个 输入 层 、1 个 隐藏 层 、1 个 输出 层 ， 如 图 4-3 所 示 ， 
其 中 从 输入 层 到 隐藏 层 的 输出 部 分 称 为 编码 器 ， 从 隐藏 层 输 出 到 和 输出 层 称 为 解码 右 。 给 定 
输入 xERn， 假 设 从 输入 层 到 隐藏 层 的 变换 矩阵 为 WencERdem，d 为 隐藏 层 的 神经 元 数 
目 ， 编 码 器 如 式 〈4.1) 所 示 ， 编 码 后 的 特征 为 nER“。 解 码 器 将 编码 特征 h 映 射 回 和 输入 空 


间 ， 得 到 重 构 的 输入 沁 ， 假 设 从 隐藏 层 到 输出 层 的 编码 矩阵 为 W。ERnxd， 如 式 (4.2) 
所 示 : 


h = o( Le = T Donc) ( 4.1 ) 
x= o( Waech T b jcc) ( 4.2 ) 


A nti at AS m 22 BP AS ton AE ET EO, EN e A a ZT 
的 重 构 误 差 进行 训练 的 ， 基 于 损失 函数 (4.3) ， 通 过 反 向 传播 计算 梯度 ， 利 用 梯度 下 降 
算法 人 不断 优化 参数 We、 Waec、 Denes Daece 


b= des 


H ins Fs ae SY 23 42 AS Je BIRR 7 BES EY DE 2, ROR Sin ae PPR AS 
Al ire EZ ARR, PAI PA geo, MRAZ ARRIA (4.4) ， 其 中 NN 为 样本 数 
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y (4.3) 
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图 4-3” 自 编码 器 结构 示意 
我 们 希望 通过 训练 编码 右 得 到 数据 中 的 一 些 有 用 特征 ， 最 第 用 的 一 种 方法 是 通过 限定 
h 的 维度 比 x 的 维度 小 ， 即 d<n， 符 合 这 种 条 件 的 编码 右 称 为 欠 完 备 目 编码 桌 。 这 种 目 编 公 


甫 在 一 定 的 条 件 下 可 以 得 到 类 似 于 主 成 分 分 机 PCA) 的 效果 。 使 用 非 线 性 的 编码 右 和 解 
Aas FY AF Bl E ERAR o 


42.2 ”正则 自 编码 器 


如 末 我 们 放 客 上 述 对 于 编码 右 维 度 的 限制 ， 允 许 编码 此 的 维度 大 于 或 者 等 于 输入 的 维 
有 度 ， 即 dz>zn， 这 种 编码 颖 称 为 过 完备 日 编码 冲 。 如 果 对 于 过 完备 目 编 码 融 不 加 任何 限制 ， 
那么 有 可 能 不 会 学 习 到 数据 的 任何 有 用 信息 ， 而 仪 仅 古 将 输入 复制 到 输出 ， 导 人 致 这 个 问题 
的 本 质 原因 不 是 维度 约束 的 变化 ， 而 是 当 我 们 赋予 编码 如 和 和 解 公 右 过 于 强大 的 “能 力 * 时 ， 
目 编 码 旧 会 倾 癌 于 耳 接 将 输入 找 贝 到 输出 ， 而 不 会 从 数据 中 提取 到 有 价值 的 特征 。 因 此 ， 
我 们 津 弟 会 对 模型 进行 一 些 正则 化 的 约束 ， 下 面 介绍 几 种 常见 的 正则 化 目 编码 右 。 


1. 去 品目 编码 右 

不 同 于 上 面 介 绍 的 原始 自 编码 器 ， 去 噪 自 编码 器 呈 的 改进 在 于 在 原始 输入 的 基础 上 加 
入 了 一 些 噪声 作为 编码 右 的 输入 ， 解 码 器 需要 重 构 出 不 加 噪声 的 原始 输入 x， 通 过 施加 这 
个 约束 ， 迫 使 编码 右 不 能 简单 地 学 习 一 个 恒 等 变 换 ， 而 必须 从 加 品 的 数据 中 提取 出 有 用 信 
居 用 于 恢复 原始 数据 。 

具体 的 做 法 是 随机 将 输入 x 的 一 部 分 值 置 0， 这 样 就 得 到 了 加 了 噪声 的 输入 xs 作 为 编码 
器 的 输入 ， 解 码 器 需要 重 构 出 不 市 噪声 的 数据 x， 因 此 损失 函数 为 : 


1 
L=— ) x= g| (4.5) 


2. Afi Bit A mihi as 


除了 给 输入 加 品 ， 还 可 以 通过 在 损失 函数 上 加 入 正则 项 使 得 模型 学 习 到 有 用 的 特征 。 
假设 隐藏 层 使 用 Sigmoid 激 活 函数 ， 我 们 认为 当 神 经 元 的 输出 接近 于 1 时 ， 它 是 比较 "“ 活 
路 ”的 ， 当 输出 接近 于 0 时 ， 它 是 不 活路” 的。 黎 瑰 编 码 名 就 是 以 限制 神经 元 的 活跃 上 度 来 约 
束 企 型 的 ， 尽 可 能 使 大 多 数 的 神经 元 都 处 于 不 活跃 的 状态 。 





我 们 定义 一 个 神经 元 的 活跃 度 为 它 在 所 有 样本 上 取 值 的 平均 值 ， 用 应 表示 。 我 们 限 


制 Pi ”Pi，Pi 是 一 个 超 参数 ， 表 示 期 望 的 活跃 度 ， 通 常 是 一 个 接近 于 0 的 值 。 通 过 对 与 
p: 偏 离 较 大 的 神经 元 进行 逢 罚 ， 就 可 以 得 到 稀 跑 的 编码 特征 。 这 里 我 们 选择 使 用 相对 炳 作 
为 正则 项 ， 如 式 (4.6) 所 示 。 


d 


T= oe 
Le= 2P log Z + (1—p)log s E (4.6 ) 
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RES Wey AY DA eee CH eS PY PSS OD A ZA SPAS OP AAA eA, REPS LL 
KK: SPS see AY, FORME AO. INERT a, MRAN: 


L= Lins et ay) + Abie (4.7) 
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变 分 自 编 码 器 趾 可 以 用 于 生成 新 的 样本 数据 ， 它 与 传统 的 自 编码 器 有 很 大 的 不 同 ， 本 
市 我 们 将 介绍 变 分 目 编 码 费 的 原理 ， 并 将 它 与 传统 目 编 码 帮 进 行 对 比 。 


1. 变 分 日 编码 占有 的 原理 


变 分 目 编码 缉 的 本 质 是 生成 模型 ， 它 假设 我 们 得 到 的 样本 虱 是 服从 条 个 复 森 分布 
P (x) 即 x~P(X) ， 生 成 模型 的 目的 束 是 要 建 模 P(X) ， 这 样 我 们 就 可 以 从 分 布 中 进行 
采样 ， 得 到 新 的 样本 数据 。 比 如 对 图 像 来 说 ， 可 以 将 每 个 像素 点 看 作 一 个 随机 变量 ， 这 些 
像 系 点 可 能 相互 依赖 ， 生 成 模型 的 目标 束 是 要 建 恒 这 些 依赖 关系 以 生成 样本 。 


一 般 来 说 ， 每 个 样本 部 可 能 受到 一 些 因 系 的 控制 ， 比 如 对 于 手写 数字 ， 需 要 决定 写 什 
么 数 子 、 数 字 的 大 小 、 笔 田 的 粗细 等 ， 这 些 因 系 称 为 隐 变 量 。 假 设 有 多 个 隐 变 量 ， 用 问 量 
z 表 示 ， 概 京 密度 妙 数 为 p (2) ， 同 时 ， 有 这 样 一 个 函数 f(z; 0) ， 它 可 以 把 p (2) PX 
样 的 数据 z 上 映射 为 与 X 比 较 相 似 的 样本 数据 ， 即 p Xz) 的 概率 更 高 。 引 入 隐 变 量 后 通过 
陈 《〈4.8) Kip X) 的 分 布 ， 这 里 有 两 个 问题 需要 考 谍 ， 一 是 如 何 选 定 隐 变 量 z;， 万 一 个 
是 如 何 计算 积分 。 


p(X) = | p(x|z)p(z)dz (4.8 ) 


对 于 隐 变 量 z 的 选择 ， 变 分 编码 如 假设 z 的 每 个 维度 都 没有 明确 的 售 义 ， 而 仅仅 要 求 z 
方便 采样 ， 因 此 假设 z 服 从 标准 正 态 分 布 z~N (0，I) o mp Qz) 的 选择 常常 也 是 正 态 分 
布 ， 它 的 均值 为 f(z; 6) ,方差 为 of， 其 中 o 是 一 个 超 参数 。 


p(x | z) = NA; 0), o T) (4.9 ) 


为 什么 上 述 假设 就 是 合理 的 呢 ? 实 际 上 任意 一 个 d 维 的 复 森 分 布 部 可 以 通过 对 d 维 正 态 
分 布 使 用 一 个 复杂 的 变换 得 到 ， 因 此 ， 给 定 一 个 表达 能 力 足 够 强 的 函数 ， 可 以 将 服从 正 态 
分 布 的 隐 变 量 z 映 射 为 模型 需要 的 隐 变 量 ， 再 将 这 些 隐 变 量 映射 为 X。 


但 是 对 于 大 部 分 的 z， 都 不 能 生成 与 x 相 似 的 样本 ， 即 P xz) 通 第 都 接近 于 0， 这 对 
于 估计 p〈X) 没有 任何 意义 ， 我 们 需要 得 到 那 种 能 够 大 概率 生成 比较 像 x 的 z。 这 些 z 怎 么 
得 到 呢 ? 如 果 知 道 z 的 后 验 分 布 p (zx) ， 就 可 以 通过 x 推 新 得 到 。 变 分 目 编码 器 引入 了 另 
一 个 分 布 g (zlx〉 来 近似 后 验 分 布 p (zlx〉。 现 在 的 问题 是 Ej x) P Sz) ] 与 p〈x) 的 
关系 是 怎么 样 的 呢 ? 下 而 我 们 来 计算 q (zx) Mp (zlx)〉 的 KL 距离 ， 如 式 (4.10) Arm: 


Di[q(z | x) | PE | X)] = E--qeollog qE | 7)-logp(z | x)] (4.10) 
然后 使 用 贝 叶 斯 公式 展开 ， 可 以 得 到 式 (4.11) ， 稍 加 整理 就 可 以 得 到 式 (4.12) 。 











Dyula | x) || PE |] = Eme inllog gE | x)-log p(x | z)-log p(z)] + logp(x) (4.11) 


log p(x)-Dxilq(Z | x) | p(z | x) | ~~ Big ae „Llog (p(x | Z))|J—Drilq(z | x) | P(z)] ( 4. 12 ) 


Ty (4.12) EPA? BSN, AAS SRN A tep a) ， 当 我 
们 选择 的 g〈zlx) 表达 能 力 足 够 强 时 ， 是 可 以 近似 表达 p (zx) W, Hate, 
Dxi[q (zix) |p zix) ] 是 一 个 趋 近 于 0 的 数 。 右 边 第 一 项 实际 上 就 是 一 个 解码 堪 ， 将 基于 
输入 x 得 到 的 最 有 可 能 生成 相似 样本 的 隐 变 量 采 样 出 来 ， 通 过 解码 右 得 到 生成 的 样本 ， 石 
边 第 二 项 古 一 个 正则 项 。 

前 面 假设 p (x|lz〉 是 正 态 分 布 ， 那 么 对 于 式 (4.13 右边 第 一 项 ， 计 算得 到 损失 函数 
的 第 一 部 分 重 构 损 失 ， 注 意 这 里 取 负 号 是 由 于 使 用 梯度 下 降 的 方法 进行 优化 ， 因 此 目标 变 
为 最 小 化 -p (x) o f Cz; 0) 可 以 使 用 神经 网 络 来 实现 。 








-log p(x|z)= -log : ap -AGN (4.13) 
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对 于 q Cix) 的 选择 ， 我 们 也 假设 服从 正 态 分 布 ， 它 的 各 分 量 相互 独立 ， 如 式 
(4.15) 所 示 ， 那 么 可 以 得 到 损失 函数 的 第 二 部 分 正则 项 。 


q(z|x) -| 
~ aro aoe) 


i= 


] 7 7 2 
Dela |x)| POZE OA + om) -In gi) -1) (4.15) 


AR ERRE, n AEREN Bias 2, OO 4-4 A o 





a) 推断 模型 b) 生成 模型 
4-4 EN Bat a 2 PAN a B 


现在 还 有 个 问题 是 隐 变 量 z 是 通过 采样 得 到 的 ， 而 采样 这 个 操作 是 不 可 寻 的 ， 无 法 进 
行 有 反问 传播 ， 我 们 使 用 一 个 称 为 午 参 数 化 的 技巧 解决 这 个 问题 ， 具 体 来 说 束 是 ， 先 从 正 态 
TAIN O0, D 中 采样 得 到 s， 隐 变量 z 通 过 计算 得 到 : z=ep Cx) +o Cx) ， 这 样 就 解决 了 
反 回 传播 的 问题 。 


2. 与 自 编 码 器 对 比 


MEN Fn AAR BORA, EBSA Ailes CRA, (Are AIA EE 
(eA, MNAR Baia — PC th oN SF TTI, MAR ot A a as A Jot E 
EE RA ROME SRY Banas GS abot, (Ee BOAT ACE A TE TU PAE 
AULA AEA a Fo BU ek SCT, BTS i EY SE AE TR S SS a HY Bock E TA] AN ee XE 
ZEN, “Ee HANES AE iS A, ORAS SS HT, A a eA Le 
BU ARIE, DAVE HE 2a rE Ree TA) BIN, APR AS a CASS HA et SCAN AAT» BOP El 
Pata UAT, EH A ie ERE AI Ap Go ， 因 此 当 训 练 完 成 后 ， 只 使 用 解 
Aas aL AY AAR MORE AS o 


43 基于 对 比 损 失 的 方法 一 Word2vec 


在 上 自然 语言 处 理 中 ， O eran oe fEWord2vect HZ A, Hs A AY 
力 EE UAB R fa) Hg A 袋 模型 、 基 于 词 的 上 下 文 构 建 的 共 现 算 阵 等 ， 都 不 可 避免 地 
FERNE. MRES 等 问题 。 ka T a 用 一 个 低 维 的 
问 量 来 表达 每 个 词 ， 语义 相关 的 词 距离 更 近 ， 解决 了 传统 方法 存在 的 高 维度 和 数据 黎 玖 等 
问题 。 本 节 将 介绍 词 同 量 的 动机 ， 并 从 对 比 损失 的 视角 来 推导 Skip-gram 模 型 。 


词 同 量 模 型 一 Skip-gram 


Word2vec'*! H poate bs Tones Mikolov 提 出 的 ， 其 核心 思想 是 用 一 个 词 的 上 下 文 去 刻 
画 这 个 词 。 从 这 个 思想 出 发 ， 我 们 可 以 得 到 两 种 不 同 的 模型 。 一 个 是 给 定 某 个 中 心 词 的 上 
ci Ne ce 这 个 模型 称 为 CBow;， 男 一 个 是 给 定 一 个 中 心 词 ， 去 预测 它 的 上 下 
文 词 ， 这 个 模型 称 为 Skip-gram。 下 面 我 们 以 Skip-gram 为 例 ， 介 绍 如 何 进行 建 模 以 得 到 我 
们 需要 的 词 问 量 。 


给 定 一 个 语料库 ， 它 可 以 由 多 篇 文档 组 成 ， 为 了 简化， 假设 该 语料库 可 以 表示 为 一 个 
序列 C= {Wi1，W2，...，WN}， 语 料 库 的 长 上 度 为 N， 单 词 的 词 表 为 VY，w; EV。 Skip- 2 人 模型 
是 使 用 中 心 词 去 预测 其 EL 上下文 词 ， 这 里 定义 上 下 文 词 为 以 中 心 词 为 中 心 的 某 个 窗口 内 的 
词 ， 假 设 窗口 大 小 为 2m+1。 给 定 中 心 词 ， 要 能 够 正确 地 预测 上 下 文 词 ， 即 我 们 希望 在 给 
定 攻 个 中 心 词 的 条 件 下 ， 输 出 词 为 上 下 文 的 概率 最 大 。 


以 如 图 4-5 所 示 的 一 句 话 为 例 ， 选 择 m=2， 考 查 中 心 词 “网 络 ”， 它 的 上 下 文 为 
CE, AA, “有 ”， “非常 省 ， 我 们 可 以 构造 这 样 的 单词 对 [〈“ 图 “网络 ”> CH 
经 "，“ 网 络 ”) OR, RD, CEM, TUB”) ]， 我 们 称 这 种 由 中 心 词 及 其 上 
下 文 词 构成 的 单词 对 为 正 样本 ， 记 为 D， 由 中 心 词 与 其 非 上 下 文 词 构成 的 单词 对 为 负 样 
本 ， 记 为 D， 比 如 (“网络 *，“ 应 用 ”) 。 








训练 样本 





图 4-5” 正 负 样 本 示意 图 


要 想 正 确 地 根据 中 心 词 预 测 上 下 文 词 ， 那 么 我 们 可 以 最 大 化 正 样 本 中 的 单词 对 作为 上 
下 文 出 现 的 概率 ， 同 时 最 小 化 负 样 本 中 单词 对 作为 上 下 文 出 现 的 概率 ， 以 此 构造 目标 函 
Blo BRER, SIEM APA TE ips, WA (4.16) 所 示 ， 其 中 we 和 表示 中 心 词 。 


y=lif(w,, w)eD | 7 
label = 四 = (4.16) 
y=0if(w,,w)eED 


我 们 的 目的 就 是 找到 使 得 条 件 概 率 p (y=1| (wo w) ) Mp (y=0| Cw. w) ) 最 大 
化 的 参数 9， 如 式 (4.17) Aras. 


0 = arg max [| p(y =1|(w.,w);0) [| p(y=0|(w,,w,., 39) (4.17) 


(w.,w)eD (w,,w)eD 


这 个 问题 残 转 化 为 一 个 二 分 类 问题 ， 给 定 任意 两 个 词 ， 判 断 它们 是 否 是 上 下 文 词 ， 
此 ， 可 以 使 用 逻辑 回归 来 建 模 这 个 问题 。 引 入 两 个 矩阵 UERD“，VERD< 它 们 中 的 每 
一 行 都 代表 着 一 个 词 ， 在 模型 训练 完成 后 ， 它 们 就 是 包含 语义 表达 的 词 向 量 。U、V 分 别 
对 应 一 个 词 作 为 中 心 词 和 上 下 文 词 两 种 角色 下 的 不 同 表达 。 对 于 一 个 词 w， 定 义 Uy 表 示 它 
对 应 的 词 同 量 。 那 么 可 以 将 式 〈4.17〉 中 的 概率 表达 为 式 (4.18) ， 其 中 o (x) 表示 
Sigmoid ef 2X: 





OU, ey ) if y=1 


| (4.18 ) 
l-oU,,*V,) ify =0 


p(y |(w,, W)) -| 


联合 式 〈4.17) 与 (4.18) ， 取 对 数 ， 可 以 得 到 式 〈4.19) ， 这 就 是 Skip-gram 的 目标 
函数 : 


L=- 》 logo(U,V,)- 2, log(l-o(U,, V,,)) (4.19) 


(w.,w)eD (w. w)eD 


= 一 log o(U,, AG >, log 2 V) 


(w.,w)eD (WwW.,w jeD 


这 个 式 子 一 方面 增 大 正 样本 的 概率 ， 男 一 方面 减 小 负 样 本 的 概率 ， 我 们 注意 到 增 大 正 
样本 的 概率 实际 上 是 在 增 大 人 Mw 即 中 心 词 与 上 下 文 词 的 内 积 ， 也 就 是 它们 之 间 的 相 
似 上 度 。 也 就 是 说 ， 最 小 化 式 〈4.19) 实际 上 会 使 得 中 心 词 与 上 下 文 词 之 间 的 距离 更 小 ， 而 
与 非 上 下 文 词 之 间 的 距离 更 大 ， 通 过 这 种 方式 作为 监督 信号 指导 模型 学 习 ， 收 你 之 后 ， 参 
数 和 矩阵 U、V 就 是 我 们 需要 的 词 向 量 ， 通 常 我 们 使 用 U 作 为 最 终 的 词 向 量 。 


这 种 构建 正人 儿 样 本 ， 并 最 大 化 正 样本 之 间 的 相似 上 度 、 最 小 化 负 样 本 之 间 的 相似 度 的 方 


式 是 表示 学 习 中 构建 损失 函数 的 一 种 第 用 思路 ， 这 类 损失 我 们 统称 为 对 比 损失 

(contrastive loss) 品 ， 它 将 数据 及 其 邻居 在 输入 空间 中 的 邻居 关系 在 特征 空间 中 仍然 保 

留 下 来 。 上 述 的 Skip-gram 模 型 的 邻居 定义 为 某 个 词 的 上 下 文 词 ， 在 其 他 任务 中 可 能 会 有 

不 同 的 定义 ， 比 如 在 人 脸 识 别 中 ， 正 样本 可 以 定义 为 同一 个 体 在 不 同 条 件 下 的 人 脸 图 像 ， 

a a a 
SR 


TRIE 


JED Fs Rot TEAS EY ie EE IAN Boe Be fe, ELM Pb a, FEZ 
只 有 少数 的 单词 能 与 它 构成 正 样本 ， 因 此 在 计算 式 〈4.19) 时 ， 当 词 表 规模 达到 百 万 级 
时 ， 后 面 一 项 对 负 样 本 的 计算 将 成 为 瓶 贷 。 负 采样 技术 就 是 利用 采样 的 方式 来 降低 
计算 量 ， 它 在 我 们 无 法 计算 所 有 的 负 样 本 或 者 计算 代价 过 高 时 ， 提 供 了 一 种 降低 计算 复杂 
度 的 方法 。 使 用 负 采 样 技术 后 ， 对 于 中 心 词 we 来 说 ， 损 失 函 数 变 为 式 〈4.20) : 


logo (U, V,.)+ X logo (-U, Veoo,, ) (4.20 ) 


j=l 


其 中 NEF Cw.) 表示 采样 得 到 的 与 we 构成 负 样本 的 词 集 合 ， 通 过 负 采 样 将 负 样 本 的 计 
MO (VD EFRO Cn) ， 其 中 n<<|V|。 在 采样 时 不 是 使 用 均匀 采样 ， 而 是 采用 以 词 频 为 
权重 的 市 权 采 样 ， 可 以 证 明 ， 这 种 采样 方式 优化 的 不 仅 是 词 问 量 的 内 积 ， 更 是 词 问 量 的 互 
信息 中， 因此 通常 以 这 种 方式 得 到 的 词 向 量 效果 更 好 。 


词 问 量 可 视 化 


我 们 将 学 习 到 的 词 问 量 降 维 到 二 维 空间 进行 可 视 化 ， 可 以 看 到 语义 相关 或 相近 的 词 之 
间 的 距离 更 近 ， 而 语义 差别 较 大 的 词 相距 更 远 ， 如 图 4-6 中 的 a 图 所 示 。 夯 外 ， 我 们 发 现 一 
个 有 意思 的 现象 ， 茶 些 词 同 量 之 间 人 存在 痢 一 定 的 平移 不 变性 ， 如 图 4-6 中 的 b 图 所 示 。 它 们 
可 以 进行 近似 的 运算 ， 比 如 玫 人 -女人 >> 国 王 -王后 ， 这 些 现 象 都 次 明了 词 问 量 捕 换 到 了 
这 个 词 的 语义 信息 。 





RBS 





a) b) 


图 4-6 ” 词 癌 量 可 视 化 
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第 5 草图 信号 处 理 与 图 卷 积 神经 网 络 


图 信号 处 理 〈Graph Signal Processing, GSP) (是 离散 信号 处 理 (Discrete Signal 
Processing, DSP) 理论 在 儿 信 号 领域 的 应 用 ， 其 通过 对 传 里 时 变换 、 泪 流 等 信号 处 理 基 
本 概念 的 迁移 ， 来 研究 对 岁 信号 的 压缩 、 变 换 、 重 构 等 信号 处 理 的 基础 任务 。 


图 信号 处 理 与 图 卷 积 模型 密 不 可 分 : 一 方面 ， 理 解 图 信号 处 理 对 于 了 解 图 知 积 模型 的 
0 
分 实用 的 工具 。 


本 草 的 脉络 十 分 目 然 ， 我 们 将 看 到 图 信号 处 理 的 基本 理论 是 如 何 延 伸 到 图 郑 积 神经 网 
络 中 去 的 。 放 和 匈 ， 我 们 给 出 了 图 信和 号 的 基本 定义 ， 运 接 看 介绍 图 信里 叶 变 换 ， 并 由 此 引出 
图 信号 频率 的 定义 。 然 后 ， 我 们 介绍 图 信号 上 的 滤波 操作 ， 紧 接着 介绍 卷 积 滤波 与 图 卷 积 
模型 的 基 系 。 其 中 还 穿插 了 比较 重要 的 两 部 分 内 容 : 一 是 对 图 信号 的 频 域 与 空域 的 理解 ; 
二 古 对 图 信号 处 理 的 频 域 与 空域 的 理解 。 另 外 ， 由 于 本 和 草 的 定义 和 公 却 较 多 ， 为 了 帮助 读 
者 更 好 地 理解 这 些 内 容 ， 在 本 章 的 第 一 节 和 最 后 一 节 分 别 准备 了 惩 阵 计算 的 前 置 知 识 和 图 
苍 积 神经 网 络 的 实战 内 容 。 














5.1 FAME IAN = IN 


HA FAS EN ZS CUA KEE HRV AE, ALS FRB eB SE Ze I ESE, RIII 
25 PEREIRA HI HAE A Bh ETT E o 


设 两 个 矩阵 AERKNM，BERM?， 对 于 C=AB， 我 们 有 如 下 3 种 计算 方式 : 
(1) 内 积 视角 : 将 A 视 作 一 个 行 回 量 和 矩阵 ， 将 B 视 作 一 个 列 疝 量 和 矩阵 ， 则 : 


C= AB (5.1) 


(2) 行 回 量 视角 : REBATE MT TA) Se, EAE REE, M: 
M | | 
Cy: a X A,B, ( 5.2 ) 
m 
(3) 列 问 量 视角 : 将 A 视 作 一 个 列 回 量 窍 阵 ， 将 B 视 作 系 数 窃 阵 ， 则 : 


M 
Gs = X B.A, ( a3 ) 








2 0 
4-| 5 (|, Ba 1 c=] $ K 
举例 来 说 ， 设 EE ar 21), 
如 果 用 行 视 角 进 行 计 算 ， 我 们 以 C 的 第 一 行 计 算 过 程 为 例 : 


如 果 用 列 视角 进行 计算 ， 我 们 以 C 的 第 一 列 计 算 过 程 为 例 : 


317 fl -1 271° 
21 10 2 al- 
-2| lanl +0 
0 12 
21 [1] fo 
Jalla 10 
3 
pE. 


ERER ERE RAER S IER BEY 2S UES AC AAA, FTL 
TAX HETRE GERT REH a ABRAIRA, RA A o 


5.2 ”图 信和 写 与 图 的 拉 普 拉 斯 窍 阵 


给 定 图 G=(V，E) ，V 表 示 图 中 的 节点 集合 ， 假 设 其 长 度 为 N， 图 信号 是 一 种 描述 
V-R 的 映射 ， 表 示 成 向 量 的 形式 : xx xy o xD BEPERKEN Ay, EAE 
强度 ， 如 图 5-1 所 示 ， 其 中 竖 线 长 度 表示 节点 上 信号 值 的 大 小 : 





图 5-1 图 信号 示例 





与 离散 时 间 信 号 不 同 ， 图 信号 是 定义 在 节 氮 上 的 信号 ， 而 节 操 之 间 有 目 己 固有 的 关联 
Zak. FEMA ATs STEMI, BRS RSA a SA Zh, bi SS A tha 
H, ATA) Shas, RARA TALES HEIR 

拉 痊 拉 斯 窃 阵 〈Laplacian Matrix) 是 研究 图 的 结构 性 质 的 一 个 非 第 核心 的 研究 对 象 ， 


拉 普 拉 斯 矩阵 的 定义 如 下 ; L=D_A，D 是 一 个 对 角 和 矩阵，” “表示 的 是 节点 vw 的 度 。 拉 
普 拉 斯 矩阵 的 元 素 级 别 定义 如 下 


deg(w) ifi=j 
L,= }-1 ife, EE (5.4) 
0 otherwise 


拉 普 拉 斯 矩阵 还 有 一 种 正则 化 的 形式 (symmetric normalized laplacian) Lswm=D- 
VIDI, TRB AE COP: 


| ifi=j 


一 ] 
一 [7,7] Sse ife. C E ( 3 ) 
, Jaes(vdegv,) © 
0 otherwise 
M ~ 的 定义 来 源 于 拉 普 拉 斯 田子 ， 拉 普 拉 斯 算 子 是 n 维 欧式 空间 中 的 一 个 二 
阶 微分 算 子 : ” 。 如 果 将 该 算 子 的 作用 域 退 化 到 离散 的 二 维 图 像 空 间 ， 束 成 了 我 们 非 


Gone chee 其 作用 原理 如 下 : 


yoy) ČLEN, Er) 


Oy” 
= [JELPI CARLU (+tD)= Sf y)-F OO v)— fy =D 
= [AALP fie Lo Peay D+F Eray) 
(5.6) 


在 处 理 图 像 的 时 候 ， 云 《〈5.6) 中 的 算 子 会 被 表示 成 模板 的 形式 : 








从 模板 中 我 们 可 以 耳 观 地 看 到 ， 拉 普 拉 斯 算 子 拍 述 了 中 心 像 系 与 局 部 上 、 下 、 左 、 夏 
四 邻 大 像 系 的 天 异 ， 这 种 性 质 通 第 被 用 来 当 作 图 像 上 的 边 经 检测 算 子 。 


同 理 ， 在 图 信号 中 ， 拉 普 拉 斯 算 子 也 被 用 来 摘 述 中 心 节 点 与 邻 大 节点 之 间 的 信号 的 闫 
异 ， 这 从 式 (5.7) 中 可 以 看 出 : 


-Ar >》 (x%- 2 (57) 


v EN (v;) 





由 此 可 知 ， 拉 普 拉 斯 矩阵 是 一 个 反映 图 信号 局 部 平滑 度 的 算 子 。 更 进一步 来 说 ， 拉 普 
拉 斯 窃 阵 可 以 让 我 们 定义 一 个 非常 重要 的 二 次 型 : 


aE D se-a) E -x,) (5.8) 


v; v;EN(y;) ejEE 


TV(x) =x"Lx D(x, -x,) 


A a ， 我 们 称 TV (x) 为 图 信号 的 总 变 差 (Total Variation) 。 
KA 


Rare is, CRSA EE TARET, Zm Alia SEARE 





E 


5.3 ”图 传 里 叶 变 换 


傅 里 时 变换 是 数字 信和 号 处 理 的 基石 ， 传 里 时 变换 将 信号 从 时 域 宪 间 转 换 到 频 域 空间 ， 
而 频 域 视角 给 信号 的 处 理 带 来 了 极 大 的 便利 。 围 绕 傅 里 叶 变 换 ， 信 号 的 滤波 、 卷 积 等 操作 
T IXY HESE DN A CREDA, WESER RA. EASES TE 
其 了 理论 日 导 。 


类 比 傅 里 叶 变 换 ， 我 们 给 出 图 信号 传 里 叶 变 换 的 定义 ， 即 将 图 信号 由 空域 (spatial 
domain) 视角 转化 到 频 域 (frequency domain) 视角 ， 便 于 图 信号 处 理 理论 体系 的 建立 。 


假设 图 G 的 拉 普 拉 斯 窍 阵 为 LER“ 人， 由 于 工 是 一 个 实 对 称 窍 阵 ， 根 据 实 对 称 和 矩阵 都 
可 以 被 正 交 对 角 化 所， 可 得 : 


A, yi 
L=vav=|y y = wi 59) 
: : : p 
VERNN 是 一 个 正 交 和 拢 阵 ， 即 VVI=I。V=[vi，vw，.…，vN] 表 示 工 的 N 个 特征 向 量 ， 由 


于 V 是 一 个 正 交 和 矩阵， 这 些 特 征 向 量 都 是 彼此 之 间 线 性 无 关 的 单位 向 量 。N 表示 第 k 个 特 
征 向 量 对 应 的 特征 值 ， 我 们 对 特征 值 进 行 升序 排列 ， 即 和 <X2...<。 





对 于 任意 给 定 的 向 量 x， 拉 普 拉 斯 矩阵 的 二 次 型 ; ROOF bauer wea rats 
阵 是 一 个 半 正 定型 矩阵 ， 其 所 有 的 特征 值 均 大 于 等 于 0。 进 一 步 ， 由 式 (5.7) 可 知 ; 
LI=-0， 因 此 拉 普 拉 斯 矩阵 具有 最 小 的 特征 值 0， 即 Ni=0。 另 外 可 以 证 明 B， 对 于 La， 其 
特征 值 存在 一 个 上 限 ，XNs2。 


图 傅 里 叶 变 换 (Graph Fourier Transform, GFT) : 对 于 任意 一 个 在 图 G 上 的 信号 X， 
其 图 傅立叶 变换 为 ，* 和”， 





我 们 称 特征 向 量 为 傅 里 叶 基 ， 站 是 x 在 第 k 个 傅 里 叶 基 上 的 傅 里 叶 系 数 。 从 定义 式 上 
可 以 看 到 ， 傅 里 叶 系 数 本 质 上 是 图 信号 在 傅 里 叶 基 上 的 投影 ， 衡 量 了 图 信号 与 傅 里 叶 基 之 
闻 的 相似 度 。 用 和 矩阵 形式 可 计算 出 所 有 的 伟 里 叶 系 数 ， 


Xx,=Vx,x E€ R“ (5.10) 
由 于 V 是 一 个 正 交 和 矩阵 ， 对 上 式 堪 乘 V， 则 ;， VX = VV x=Ix =x, p; 


x=Vk%,x ER’ (5.11) 


于 是 我 们 可 以 将 逆 图 傅立叶 变换 〈JInverse Graph Fourier Transform, IGFT) 定义 为 : 


N 
Xk =) Veš, ( 5.12) 
i=] 
I (5.11) Æ PEREA WARR EER, ORO RIP I, M: 
X, 
Xx=VK=|V, V, e vw. (5.13) 
3 


由 此 可 知 ， 从 线性 代数 的 角度 来 看 ，v1，w，.…，vN 组 成 了 N 维 特征 空间 中 的 一 组 完 
备 的 基 癌 量 ， 图 G 上 的 任意 一 个 图 信号 都 可 以 被 表征 成 这 些 基 同 量 的 线性 加 权 。 具 体 来 
说 ， 权 香 束 是 图 信号 在 对 应 传 里 叶 基 上 的 传 里 叶 系 数 ， 这 种 对 图 信号 的 分 解 表示 方法 ， 给 
了 我 们 一 种 全 新 的 看 竺 图 信号 的 视角 。 这 样 的 分 解 思 路 与 离散 信号 处 理 中 所 定义 的 傅 里 时 
Auh — AL, QORIS-2Ar a: 





a) 图 信号 的 分 解 b) 时 域 信 号 的 分 解 
图 5-2 ” 健 里 叶 变 换 


其 中 a 图 为 图 信号 被 分 解 到 两 个 傅 里 叶 基 上 的 示意 图 ，b 图 为 时 域 信号 被 分 解 成 两 个 正 
弦 信 号 的 加 和 示意 图 。 


图 信里 叶 变 换 与 图 信号 的 频率 有 什么 关系 呢 ? 要 理解 这 个 问题 ， 我 们 必须 回 到 总 变 关 
的 定义 式 上 ， 有 了 图 传 里 叶 变 换 的 定义 之 后 ， 我 们 可 以 对 忌 变 到 进行 改写 : 


TV =x LE= VA x (5.14) 
= (VX) VAV (VŽ) 
=% V VAV Vx 


HEE 
x AX 
N 
~? 
< ` Ay X 
k 


MA (5.14) PRD, Alfie Ss Lae Ze BREE TA A AIEE BARTEX 
MRA, ASE 727e A AARP IE EY TREN, NEER SARN Dv AY E RA 
ent eee eee ee See Vee 
A 5 ? 


RITH EME 5 BR FE FE FE [a st EREE. BR 2 RE Dd E BE TE E AY FAT] 
Bt, FURRIE{EAy, Ags o AweM DBI KRHA, PALES ae 2 Be Me oR Pe Alf 
S Sia) APTI BA, PO DY SRE [A tv SCA, UIA x, 40, HA HR E ZR 2 
为 0， 总 变 差 TV (v,) = 和 。 事 实 上 ， 若 xz=v， 则 TV Op = 入 ， 可 以 进一步 详细 证 明 岂 ， 
如 采 要 选择 一 组 役 此 正 交 的 图 信号 ， 使 得 各 目的 总 变 关 依次 取得 最 小 仁 ， 那 么 这 组 图 信号 
就 是 v，V，.…，VvN， 如 式 〈5.15) Arm: 


站 二 min x Lx Golsy 

x:|x|=1,x Lx My 村 

结合 总 变 关 代表 痢 图 信号 整体 平 请 度 的 实际 意义 ， 我 们 可 以 及 现 ， 特 征 值 依次 排列 在 
一 起 ， 对 图 信号 的 平 谓 度 作出 一 种 梯度 刻画 ， 因 此 可 以 将 特征 值 等 价 成 频率 。 特 征 值 越 

低 ， 频 紊 越 低 ， 对 应 的 全 里 叶 基 整 变 化 得 越 绥 慢 ， 相 近 市 点 上 的 信和 与 值 趋 于 一 致 ， 特 征 值 
ie Tey, MER KYA ST REAR HL Pa ZA, PEI EY fig SE USE is NB 


下 面 我 们 来 看 一 个 具体 的 计算 示例 〈 见 图 5-3) : 








a) 图 G b) 图 拉 普 拉 和 矩阵 
图 5-3 ”图 G 和 拉 普 拉 斯 矩阵 


要 -a IRIA (5.9) ， 计 算得 到 该 图 的 拉 普 拉 期 矩阵 的 特征 矩阵 
与 特征 值 : 


-0.447 0.438 -0.703 0 0.338 
-0.447 0.256 0.242 0.707 -0.419 

V =|-0.447 0.256 0.242 -0.707 -0.419 
-0.447 -0.138 0.536 0 0.702 
-0.477 -0.811 -0.318 0 € -0.202 

A=diag([0 0.8299 2.689 4 4.481]) 


diag O 表示 将 回 量 对 角 化 成 趾 阵 形式 。 图 5-4 为 将 Vi，vV，vs 作 为 图 信号 时 的 示意 


< 一 14 1 
| | a T | SES "| ie. | ? 


图 5-4 ”将 特征 同 量 作为 图 信号 的 示意 


通过 图 5-4 我 们 可 以 直观 地 看 到 ，3 组 信号 中 vj 变化 得 最 缓慢， 事实 上 vi 的 信号 值 处 处 
相等 ，Vvs 变 化 得 最 剧烈 ， 而 v 的 效果 后 中 。 


同时 ， 我 们 也 可 以 定义 图 信号 的 能 量 : 
E(x) = ||x|| =x x = (VX) (VX) =% (5.16) 
即 图 信号 的 能 量 可 以 同时 从 空域 和 频 域 进行 等 价 定义 。 单 位 向 量 的 图 信号 能 量 为 1。 
有 了 频率 的 定义 ， 健 里 叶 系 数 就 可 以 等 价 成 图 信号 在 对 应 频率 分 量 上 的 幅 值 ， 反 映 了 
图 信号 在 该 频率 分 量 上 的 强度 。 图 信号 在 低频 分 量 上 的 强度 越 大 ， 该 信号 的 平滑 度 就 越 
高 ， 相反 ， 图 信号 在 高 频 分 量 上 的 强度 越 大 ， 该 信号 平滑 度 就 越 低 。 
定义 好 图 傅 里 叶 变换 之 后 ， 我 们 就 可 以 从 频 域 视角 去 研究 图 信号 了 。 我 们 把 图 信号 所 
有 的 傅 里 叶 系 数 合 在 一 起 称 为 该 信号 的 频谱 (spectrum) 。 在 一 个 给 定 的 图 中 ， 图 信号 的 
频谱 等 价 于 一 种 身份 JD， 给 定 了 频谱 ， 我 们 就 可 以 运用 逆 图 傅 里 叶 变 换 ， 完 整地 推导 出 
空域 中 的 图 信号 。 同 时 ， 频 谱 完整 地 描述 了 图 信号 的 频 域 特性 ， 为 接 下 来 的 图 信号 的 采 
样 、 滤 波 、 重 构 等 信号 处 理工 作 创造 了 条 件 。 
当然 ， 需 要 特别 注意 的 是 ， 频 域 视角 是 一 种 全 局 视角 ， 图 信号 频谱 上 的 任意 一 个 傅 里 


叶 系 数 ， 都 是 对 图 信号 的 某 种 低频 或 高 频 特 征 的 定量 描述 ， 这 种 描述 既 考 夸 了 图 信号 本 喘 
人 


频谱 频谱 频谱 


频 域 


图 5.5 ”空域 与 频 域 中 的 图 信号 


在 图 5-5 中 ， 第 一 排 男 出 了 在 空域 中 的 图 信号 ，3 组 图 信号 的 能 量 是 一 样 的 ， 但 是 由 于 
Gi1、G2、Gs3 的 图 络 构 不 同 ， 使 得 信号 在 视觉 上 给 人 不 同 的 平滑 度 感 受 。 具 体 来 讲 ，G1 上 





图 信号 在 相近 的 节点 上 的 信号 值 很 相似 ; G3 上 的 图 信号 在 相近 的 节点 上 的 信号 值 差 异 比 
较 大 ; G2 上 图 信号 的 情况 介 于 二 者 之 间 。 


第 二 排 画 出 了 对 应 图 信号 的 频谱 图 ， 从 图 5-5 中 可 以 看 到 ，G1 上 图 信号 的 侍 里 叶 系 数 
在 小 于 0.5 的 低频 上 取得 最 大 值 ， 且 非常 集中 ; G, 上 图 信号 的 健 里 叶 系 数 在 等 于 1 的 频率 上 
取得 最 大 值 ，G3 上 图 信号 的 傅 里 叶 系 数 在 大 于 1 的 频率 上 取得 最 大 值 ， 且 在 中 高 频 分 量 上 
有 着 更 高 的 强度 。 上 下 两 排 图 分 别 从 空域 和 频 域 描述 了 3 组 信号 的 平滑 度 ， 当 然 这 种 比较 
也 可 以 从 总 变 差 的 计算 中 得 出 : xILIx=0.14，xTILx=1.31，XIL3sXx=1.81。 
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5.4 ”图 滤波 可 


有 了 5.3 节 中 国信 号 的 频率 定义 之 后 ， 接 下 来 我 们 束 可 以 对 图 滤波 十 (Graph Filter) 
we So. BP Battle SAH, FA SA, Bae Ae ae MAW Ae AB 
> ERY UE A SR) E AY ee EE 7 A BE BRE. (EC ER AS HE RN'N, Ill 
H: RN- RÄ, 令 和 输出 图 信号 为 y， 则 : 





y =x = SHAE) Vi (5.17) 


对 比 公 去 〈5.13) , FTA) Dia AE AH see ce Se eh CA) 项 来 控制 的 。 为 
了 进一步 看 清和 茎 英 的 形式 ， 我 们 需要 对 上 了 式 进行 变换 : 


7 h( A, )X, 
yas F | 页 及 = Wy Ma (5.18) 
所 .| | | 
So Pr 
h(A,) a 
| MD) YS 
h(Ay) || Xy 
h(A,) 
V MA) Vix 
h( Ay) 
于 是 得 到 
h(a) 
H=V Ay) Pah (5.19) 


KAR fe ME, IME SON AEE ERE, Att, HEP est: 
H,=0, WAizje FE. Eiei HAM AT Sin EI A AY ERE. M 


算 子 的 角度 来 看 ， Hx 描述 了 一 种 作用 在 每 个 节点 一 阶 子 图 上 的 变换 操作 。 一 般 来 说 ， 我 
们 称 满 足 上 述 性 质 的 矩阵 为 G 的 图 位 移 算 子 (Graph Shift Operator) ， 拉 普 拉 斯 窃 阵 与 邻 
接 窃 阵 都 是 典型 的 图 位 移 算 子 。 事 实 上 上， 本章 讲解 的 所 有 图 信号 处 理 的 相关 理论 ， PEN 
被 拓展 到 图 位 移 算 子 上 ， 并 不 局 限 在 拉 普 拉 斯 矩阵 上 。 

PA WEI as BLA A FIE: 

(1) 线性 : H (x+y) =Hx+Hy; 

(2) 滤波 操作 是 顺序 无 关 的 : Hy, (Hax) =H, (H,x) ; 
(3) 如 果 h (入 )〉z0， 则 该 滤波 操作 是 可 逆 的 。 


我 们 称 Aj 为 图 滤波 器 H 的 频率 响应 矩阵， 对 应 的 函数 h (和 和) 为 H 的 频率 响应 函数 ， 不 
同 的 频率 啊 应 国 数 可 以 实现 不 同 的 滤波 效果 。 在 信号 人 处理 中 ， 常 见 的 滤波 器 有 3 类 : 低 通 
滤波 右 、 高 退 滤 波 右 、 市 通 滤 波 右 〈( 见 图 5-6) 。 





A 


a) 低 通 滤波 器 b) 高 通 滤波 器 c) 带 通 滤波 器 





图 5-6 ”3 闫 滤 六 耸 的 频率 啊 应 函数 


图 5-6 所 示 为 3 大 涯 波 器 的 频率 啊 应 函数 : 从 a 图 中 可 以 看 出 ， 低 通 涯 波 器 只 保留 信和 号 
中 的 低频 成 分 ， 村 加 关注 信号 中 阅 滑 的 部 分 ; 从 b 图 中 可 以 看 出 ， 融 通 小 小 带 公 你 饪 信号 
中 的 高 频 成 分 ， 更 加 关注 信号 中 快速 变化 的 部 分 ， 从 c 图 中 可 以 看 出 ， 市 通 涛 小 需 只 你 留 
信号 特定 频段 的 成 分 。 


论 上 ， 我 们 希望 实现 任意 性 质 的 图 滤波 右 ， 也 就 是 实现 任意 类 型 函数 曲线 的 频率 啊 
4 通过 逼近 理论 ， 我 们 可 以 用 泰和 展开 一 多 项 式 通 近 函 数 去 FALLS eA. «RD, 
BOAT DEE H SE SR BRE Fi i ME ET RY RE aS 


g 
H=hL+hl +h P +--+h Ll’ => hL (5.20 ) 


FP Ke Aye asHi brat. MEA sO, MP Avast, BAT te Ay VATS Mae 
视角 和 频 域 视角 来 理解 。 


5.4.1 ”空域 角度 


对 于 ”全 名 **， 如 果 我 们 设 定 : 


x = Ty = Lx (5.21) 
mlj; 
y= > hx” (5.22) 
k=0 


通过 上 式 ， 将 输出 图 信号 变 成 了 (K+1) 组 图 信号 的 线性 加 权 。 对 于 式 (5.21), H 
FLEA ABET, Att, x DP 到 x (© 的 变换 只 需要 所 有 节点 的 一 阶 邻 居 参 与 计 
算 。 总 的 来 看 ，x © 的 计算 只 需要 所 有 节点 的 k 阶 邻居 参与 ， 我 们 称 这 种 性 质 为 图 滤波 器 
的 局 部 性 。 

从 空域 角度 来 看 ， 滤 波 操作 具有 以 下 性 质 : 

(1) 具有 局 部 性 ， 每 个 节点 的 输出 信和 号 值 只 需要 考虑 其 K 阶 子 图 ; 

(2) 可 通过 K 步 欠 代 式 的 矩阵 回 量 乘法 来 完成 滤波 操作 。 


我 们 以 图 5-7 为 例 来 看 图 信号 滤波 操 作 在 空域 的 计算 过 程 : 
b) g) 


l 0 
D D 
= 
(uy keg 
0 一 ] 
a) 
图 5-7 ”空域 视角 滤波 计算 示意 图 


根据 图 5-3 中 的 a 图 ， 将 图 G 的 邻接 窍 阵 作为 图 滤波 此 : 





oo 
0 aj 


= & & a 


0 

] 
H=A=|1 
0 

0 


O = O 一 
— 0 — =- 5 


一 


给 定 图 信号 x=[1 0 0-1-1]*"， 系 数 向 量 h=[1 0.5 0.5], RAR (5.22) ， 我 们 可 以 得 
到 滤波 输出 的 图 信号 为 ; 


y= hx j: hx fh hx 


其 中 x © =x=[1 0 0-1-1], x P? =Hx=[000-1-1]", x © =Hx P =[0-1-1-1-1]'. 
代入 数据 ， 得 到 V: 


] 0 0 o] 
0 0 一 ] —0.5 
y= 1x+0.5x +0.5x% =| 0 |+0.5| 0 |+0.5| —1 |=| —0.5 
一 ] 一 ] 一 ] —2 
一 ] 一 ] 一 ] —2 





xD. x “2) 的 计算 在 图 5-7 中 己 给 出 ， 由 于 空域 滤波 操作 的 局 部 性 ，H 等 价 于 一 个 聚 
合 邻居 的 操作 算 子 ， 如 a 图 、b 图 中 的 箭头 所 示 ， 从 a 图 、b 图 、c 图 中 可 以 清楚 地 看 出 ， 
MR 





5.4.2 ” 频 域 角度 


HHFL=VAV!, Ill: 
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K K K a 
H=)> hdr =) RUAY A É E (523) 
k=0 k=0 


S'hi 


k=0 


EA (5.23) , RATE UA EE LH 8 A RAAKAA MN, MR 
KEEK, RITE VAR I UE ERR ANR TAR BL 


BOAR BATA ZA ve a LEFT US, M: 


K 
y= Hx = {> h,A* Vx (5.24) 


k=0 
st (5.24) 即 为 频 域 视角 下 的 滤波 操作 ， 其 变换 过 程 由 以 下 3 步 组 成 : 
(1) 通过 图 傅 里 叶 变 换 ， 即 让 六 将 图 信号 变换 到 频 域 空间 ， 
(2) 通过 ->”* 对 频率 分 量 的 强度 进行 调节 ， 得 到 少 ， 
(3) 通过 逆 图 傅 里 叶 变 换 ， 即 人 将 少 反 解 成 图 信号 y。 
我 们 假设 所 有 的 多 项 式 系数 h 构 成 向 量 h， 则 FH 的 频率 响应 矩阵 为 : 
K 
k . i 
A, = > hA = diag(Vh) ( 5.25 ) 
k=0 
其 中 ,为 范 德 莹 矩阵 ， 我 们 可 以 反 解 得 到 多 项 式 系数 ， 
h= WV diag (A,) (5.26) 


其 中 diag-! 表 示 将 对 角 和 矩阵 变 成 列 向 量 。 式 〈5.26) 说 明 给 定 我 们 想 要 的 频率 响应 逢 
阵 ， 可 以 通过 上 式 反 解 得 到 多 项 式 系数 。 显 然 ， 这 个 式 子 对 于 特定 性 质 的 图 滤波 器 的 设计 


具有 十 分 重要 的 意义 。 


图 5-8 征 对 图 信号 进行 低 通 泥 波 的 操作 示意 图 。 从 中 可 以 看 到 ， 相 较 于 原始 图 信号 ， 
对 其 进行 低 通 滤波 后 ， 图 信号 变 得 更 加 平滑 了 。 


noisy X denoised x, 


x, = UA(A)U'x 





i i 

a h(A) os 
0 

0 10 20 

A giZ 

频 域 S|? 0.5 k 0.5 

> 0 re 


ta = h(A)& 0 10 20 








图 5-8 sie ea Ss Al! 
从 频 域 角度 来 看 ， 我 们 可 以 对 图 滤波 操作 出 以 下 性 质 总 结 : 
(1) 从 频 域 视 角 能 够 更 加 清晰 地 完成 对 图 信号 的 特定 滤波 操作 ; 
(2) 图 滤波 器 如 何 设计 具有 显 式 的 公式 指导 


(3) 对 和 矩阵 进行 特征 分 解 是 一 个 非常 耗 时 的 操作 ， 有 具有 O CN?) 的 时 间 复 杂 度 ， 相 
空域 视角 中 的 矩阵 同 量 乘法 而 言 ， 有 工程 上 的 局 限 性 。 
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定义 的 。 给 定 两 组 G 上 的 图 信号 x1/、x，， 其 图 卷 积 运算 定义 如 下 : 


x,*x, = IGFT(GFT(x,) © GFT(x,)) (5.27) 


FLO RANMAIAFS AR © I HLA RE Sy BRANT ES BCI TB) fis SS BE HEN BA FE SC ee 
的 一 时 域 中 的 郑 积 运算 等 价 于 频 域 中 的 乘法 运算 。 


我 们 对 式 (5.27) 继续 进行 推导 : 
SP ae V(V'x)) © (V x,)) = VX, © (V x,)) ( 5.28) 
V(diag(*,)(V'x,)) 
(Vdiag(X, ) V")x, 








— i ÉY T 、 a N Joly 、 vo 
令 信 ,二 Vdiag@)V， 晶 然 人 ft 是 一 个 图 位 移 算 子 ， 其 频率 响应 矩阵 为 x 的 频谱 ， 于 


Je H] fẹ: 
XI * X = HAr X, (5.29 ) 


MX (5.29) PJA, WHERE Ss HY REAS RA BERR AT MEAW EE SR, MA 
NAM ERA, KERST Alek. LPRA RGR S RAER (5.29) 4 
IEKE, ETIRI MGE T WHA is BS re SUPE TA HA OK 

ri eee A DLA A A EE A A A ces E A BHE y AR HE TIAE RE 
形式 。 设 矩阵 XERNM， 我 们 可 以 将 X 视 为 d 组 定义 在 图 G 上 的 图 信号 ， 于 是 我 们 称 X 为 图 
信和 与 窍 阵 ，d 为 图 信号 的 总 退 道 数 ，X，, ;表示 第 j 个 通过 上 的 图 信 与 。 例 如 ， 对 Y=HX， 我 
们 可 以 理解 成 用 图 滤波 带 H 对 信和 与 窍 阵 X 每 个 通道 的 信和 与 分 别 进 行 滤波 操作 ，X，, ;对 应 的 
fan A Al fa SRE MEY EBMER EA Ae SY, , jo 


JÙ A 











fit AS PATEL PY 28 TET LL EN A, A4 de HY RER S SE) Bt HY 
a HAS SE HAMARA. BE 下来， 我们 将 介绍 这 其 中 具有 代表 性 的 一 些 工 


1. 对 频率 啊 应 矩阵 进行 参数 化 


BLISS ARBRE TES OT FUERTE TTT We SE AZ Le TE FS Ug DV FEE, MBAR 
A] A PR AG BY AZ Me AE ERITAR, REBT EY DA RE SC OTP ZS bd 28 J 


0 | | 
X'=o0(V i V"X) (5.30) 
9, 
= o (V diag(0W X) 
=0(OX ) 
其 中 6 C) 是 激活 函数 ，9-[6,，6,，.，6] 是 需要 学 习 的 参数 ，6 是 对 应 的 需要 学 


习 的 图 滤 流 开 ，X 征 输入 的 图 信号 乍 阵 ，X' 是 输 出 的 图 信号 窍 阵 。 基 本 上 这 个 思路 可 以 鬼 
H RIVERINE HI EERI FA AERAN fE A Efi: 

(1) 从 空域 视角 来 看 ， 该 层 引 入 了 一 个 目 适 应 的 图 位 移 算 子 ， 通 过 学 习 的 手段 指导 
该 算 子 的 和 学习 ， 从 而 完成 对 输入 图 信号 的 针对 性 变换 操作 。 

(2) 从 频 域 角度 看 ， 该 层 在 X 与 X' 之 间 训 练 了 一 个 可 目 适 应 的 图 滤波 带 ， 图 滤波 占 
的 频率 啊 应 函数 是 怎样 的 ， 可 以 通过 任务 与 数据 之 间 的 对 应 天 系 来 进行 监 丢 学 习 。 


上 述 思路 虽然 简单 易 懂 ， 但 是 也 存在 一 个 较 大 的 问题 ， 引入 的 学 习 参 数 过 多 ， 需 要 学 
习 的 参数 量 与 图 中 的 节点 数 一 致 ， 这 在 大 规模 图 数据 ， 比 如 上 亿 节点 数 规模 的 图 中 ， 极 易 
发 生 过 拟 合 问题 。 


为 外 ， 在 真实 的 图 数据 中 ， 数 据 的 有 效 信息 通常 部 强 含 在 低频 段 中 (参考 第 6 章 第 3 市 
E 
要 的 。 

2. 对 多 项 式 系数 进行 参数 化 


同样 ， 为 了 拟 合 任意 的 频 京 啊 应 函数 ， 我 们 也 可 以 将 拉 普 拉 斯 窍 阵 的 多 项 式 形式 转化 
为 一 种 可 学 习 的 形式 ， 该 忠 路 在 引文 [6] 中 被 提出 ， 上 其 体 如 下 : 





X=or (SoA x | =o dag On ERIP 


k=0 


其 中 0=[91，02，...，6Qk] 是 多 项 式 系数 同 量 ， 也 是 该 网 络 层 真正 需要 学 习 的 参数 ， 与 
前 述 方法 不 同 的 是 ， 这 个 方法 的 参数 量 K 可 以 目 由 控制 。K 越 六， 可 拟 合 的 频率 啊 应 函数 
HY x BU Ie reg» PY PAS ig A BA SAE a h RE AZT] BS AS OR AR KE 
AS BAE AE Dv BR BE ARAR, FY DY Di A fis SSR BS SE BE SR BA 
间 简 单 的 滤波 关系 。 总 的 来 说 ， 一 般 设 K<<N， 这 将 大 大 降低 模型 过 拟 合 的 风险 。 


3. 设 计 固 定 的 图 洲 波 右 





前 述 方法 虽然 大 大 降低 了 参数 量 ， 但 却 由 于 对 年 阵 特征 分 解 比 较 依 赖 而 给 计算 市 来 了 
极 蜗 的 复杂 度 。 为 了 解决 这 个 问题 ， 在 引文 [7] 中 ， 作 者 对 上 式 进 行 了 限制 ， 设 K=1， 则 : 


X' = 0(0,X + O,LX) (5.32) 
4>0,=0,=0, Ill: 

X' = o(O(1 + L)X) = o( OLX) ( 5.33 ) 
需要 注意 的 是 ， 这 里 的 6 是 一 个 标量 ， 相 当 于 对 元 的 频率 响应 函数 做 了 一 个 尺度 变 


换 ， 通 常 这 种 尺度 变换 在 神经 网 络 模型 中 会 被 归 一 化 操作 蔡 代 ， 因 此 ， 这 个 参数 是 不 必要 
引入 的 ， 我 们 设 9=1， 然 后 就 得 到 了 一 个 固定 的 图 滤波 器 志 . 





为 了 加 强 网 络 学 习 时 的 数值 稳定 性 ， 作 者 仿照 正则 拉 普 拉 斯 垂 阵 ， 对 也 也 做 了 归 一 化 
wee. bom = 44 和， 我 们 称 和 "为 重 归 一 化 形式 的 拉 普 拉 斯 
矩阵 。 上 sr 的 特征 值 范围 为 “-1，1， 可 以 有 效 防止 多 层 网 络 优化 时 出 现 的 梯度 消失 或 爆 
炸 的 现象 (参考 第 6 音 第 3 节 的 内 容 ) 。 


为 了 加 强 网 络 的 拟 合 能 力 ， 作 者 设计 了 一 个 参数 化 的 权重 答 阵 W 对 输入 的 图 信号 沧 阵 
进行 仿冒 变换 ， 于 是 得 到 : 





X" = O(LgymXW) (5.34) 

如 果 没 有 其 他 说 明 ， 我 们 特 称 式 〈5.34) 为 图 卷 积 层 (GCN layer) , VASA =E PSE 
释 多 层 的 神经 网 络 模型 称 为 图 卷 积 模型 (GCN) à 
i REIRE ERN E Md Dv AAMS SE ES A E, Ba AH PR eR AC MGT 
Lm ， 图 卷 积 操作 变 成 了 4 后。 如 果 将 X 由 信号 矩阵 的 角色 切换 到 特征 矩阵 上 ， 由 于 人 


是 一 个 图 位 移 算 子 ， 依 据 矩 阵 乘法 的 行 向 量 视角 ， 人 sm< 的 计算 等 价 于 对 邻居 节点 的 特征 
向 量 进行 聚合 操作 ， 于 是 图 卷 积 层 在 节点 层面 的 计算 公式 如 下 : 


x=0| X Lak P) (5.35) 
vpe N (v A ) l 
图 5-7 即 为 这 种 聚合 邻居 节点 操作 的 示意 图 。 实 际 在 工程 上 ， “sym 可 以 用 稀疏 矩阵 来 
表示 ， 这 可 以 进一步 降低 图 卷 积 层 的 计算 复杂 度 。 相 较 于 频 域 图 卷 积 中 矩阵 分 解 时 
O (NS) 的 时 间 复 杂 度 ， 这 种 空域 图 卷 积 计算 的 时 间 复 杂 度 可 以 降 至 O (Eld) 。 


全 于 在 实际 任务 中 设计 固定 图 滤波 堪 的 做 法 是 售 有 效 ， 我 们 从 以 下 两 点 进行 说 明 : 


(1) Lm 本 身 所 具有 的 滤波 特性 是 比较 符合 真实 数据 的 特有 性 质 的 (参考 第 6 童 第 3 
市 的 相关 内 容 ) ， 能 对 数据 实现 融 效 的 滤波 操作 ; 


(2) 虽然 GCN 层 是 由 对 频率 啊 应 函数 的 线性 近似 推导 得 出 来 的 ， 但 是 和 深度 学 习 中 
深度 网 络 给 模型 市 来 的 强大 拟 合 能 力 一 样 ， 堆 墅 多 层 GCN 层 ， 在 茶 种 程度 上 ， 可 以 达到 
高 阶 多 项 式 形式 的 频率 啊 应 函数 的 滤波 能 力 。 这 种 简化 单 层 网 络 的 学 习 能 力 ， 通 过 增加 深 
及 来 所 升 模型 表达 能 力 的 做 法 ， 在 之 前 介绍 的 CNN 模 型 中 表现 出 了 极 强 的 工程 优越 性 。 
事实 证 明 ， 这 种 设计 所 带 来 的 优越 性 也 在 GCN 后 续 的 多 项 相关 论文 中 得 到 了 充分 展示 ， 
以 GCN 为 代表 的 模型 便 然 成 为 各 类 图 数据 学 习 任务 的 站 选 。 


忌 的 来 说 ， 正 是 由 于 有 了 图 信号 处 理 中 对 图 若 积 操作 的 定义 与 理解 ， 神 经 网 络 模 型 中 
的 图 敬 积 层 才 能 得 到 非 第 直观 的 人 设计。 一般 来 说 ， 对 于 只 能 从 频 域 出 友 进 行 窍 阵 特征 分 解 
从 而 执行 图 知 积 计算 的 模型 ， 我 们 称 之 为 频 域 图 知 积 模 型 。 相 应 地 ， 对 于 图 若 积 计算 不 十 
要 进行 窍 阵 特 征 分 解 ， 能 在 空域 视角 执行 矩阵 乘法 计算 的 模型 ， 我 们 称 之 为 空域 图 敬 积 模 
型 。 需 要 特别 说 明 的 是 ， 虽 然 空 域 图 知 积 异型 具有 工程 上 的 优越 性 ， 但 是 这 立 人 异型 也 都 可 
以 从 频 域 视角 进行 理解 ， 从 本 书后 续 的 相关 章节 中 ， 我 们 也 可 以 看 到 频 域 视 角 对 于 图 藻 积 
模型 的 设计 也 是 十 分 重要 的 。 














5.6 GCN 

本 节 我 们 通过 一 个 完整 的 例子 来 理解 如 何 通 过 GCN 来 实现 对 节点 的 分 类 。 

我 们 使 用 的 是 Cora 数 据 集 ， 该 数据 集 由 2708 篇 论文 ， 及 它们 之 间 的 引用 关系 构成 的 
5429 条 边 组 成 。 这 些 论 文 被 根据 主题 划分 为 7 类 ， 分 别 是 神经 网 络 、 强 化 学 习 、 规 则 学 
习 、 概 率 方法 、 遗 传 算法 、 理 论 研究 、 案 例 相 关 。 每 篇 论文 的 特征 是 通过 词 袋 模型 得 到 
的 ， 维 度 为 1433， 每 一 维 表示 一 个 词 ，1 表 示 该 词 在 这 篇 文章 中 出 现 过 ，0 表 示 未 出 现 。 


首先 我 们 定义 类 CoraData 来 对 数据 进行 预 处 理 ， 主 要 包括 下 载 数据 、 规 范 化 数据 并 进 
行 缓存 以 备 重复 使 用 。 最 终 得 到 的 数据 形式 包括 如 下 几 个 部 分 : 


‘xX: 市 扩 特 征 ， 维 度 为 2808x1433; 
y: 节 扩 对 应 的 标 位 ， 包 括 7 个 类 列 ; 
‘adjacency: 邻接 和 矩阵， 维度 为 2708x2708， 类 型 为 scipy.sparse.coo_matrix:; 


:train _mask、val_mask、test_mask: 与 节点 数 相 同 的 措 码 ， 用 于 划分 训练 集 、 验 证 
集 、 测 试 集 。 如 代码 清单 5-1 所 示 : 


代码 清单 5-1 CoraData 类 定义 





import scipy.sparse as sp 
import torch 

import torch.nn as nn 

import torch.nn.functional as F 
import torch.nn.init as init 
import torch.optim as optim 
import matplotlib.pyplot as plt 


# 用 于 保存 处 理 好 的 数据 
Data = namedtuple('Data', ['x', 'y', ‘adjacency', 
'train_mask', 'val_mask', '‘test_mask' ]) 


class CoraData(object): 
download_url = "https://github.com/kimiyoung/planetoid/raw/master/data" 
filenames = ["ind.cora.{}".format(name) for name in 
'x', 'tx', ‘tallx', ‘y', ‘ty', ‘ally', 'graph', 'test.index' |] 
def _ init__(self, data_root="cora", rebuild=False): 
""" 包 括 数据 下 载 、 处 理 、 加 载 等 功能 
当 数 据 的 缓存 文 件 存 在 时 ， 将 使 用 绥 存 文件 ， 人 否则 将 下 载 、 处 理 ， 并 缓存 到 磁盘 


data_root: string, optional 
存放 数据 的 目录 ， 原 始 数据 路 径 : {data_root}/raw 
缓存 数据 路 径 : {data_root}/processed_cora.pkl 
rebuild: boolean, optional 


是 否 需 要 重新 构建 数据 集 ， 当 设 为 True 时 ， 如 果 绥 存 数 据 存在 也 会 重建 数据 








self.data_root = data_root 
save_file = osp.join(self.data_root, "processed_cora.pkl") 
if osp.exists(save_file) and not rebuild: 
print("Using Cached file: {}".format(save_file) ) 
self._data = pickle.load(open(save_file, "rb")) 
else: 
self .maybe_download( ) 


self._data = self.process_data() 

with open(save_file, "wb") as f: 
pickle.dump(self.data, f) 

print("Cached file: {}".format(save_file) ) 


@property 
def data(self): 
"MW 返回 Data 数 据 对 象 ， 包 括 x,，Yy,， adjacency, train_mask, val_mask, test_mask""" 
return self. data 


def maybe_download(self): 
save_path = os.path.join(self.data_root, "raw" ) 
for name in self.filenames: 
if not osp.exists(osp.join(save_path, name)): 
self .download_data( 
"f}/ind.cora.{}".format(self.download_url, name), save_path) 


@staticmethod 
def download_data(url, save_path): 
"" "数据 下 载 工具 ， 当 原始 数据 不 存在 时 将 会 进行 下 载 """ 
if not os.path.exists(save_path): 
os.makedirs(save_path) 
data = urllib.request.urlopen(url) 
filename = os.path.splitext(url) 


with open(os.path.join(save_path, filename), 'wb') as f: 
f.write(data.read()) 


return True 
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单 5-2 仍 然 定 义 在 类 CoraData 中 。 


代码 清单 5-2 Cora 数据 处 理 





def process_data(self): 


SHPO, FET RMLs, AR KME, VIBES. WUER VA Ae ll he 





print("Process data ...") 

_, tx, allx, y, ty, ally, graph, test_index = [self.read_data( 
osp.join(self.data_root, "raw", name)) for name in self.filenames | 

train_index = np.arange(y.shape[0] ) 

val_index = np.arange(y.shape[0], y.shape[O] + 500) 

sorted_test_index = sorted(test_index) 


X 
y 


= np.concatenate((allx, tx), axis=0) 

= np.concatenate((ally, ty), axis=0).argmax(axis=1) 
x[test_index] = x[sorted_test_index] 

y[test_index] = y[sorted_test_index] 

num_nodes = x.shape[0] 


train_mask = np.zeros(num_nodes, dtype=np.bool) 
val_mask = np.zeros(num_nodes, dtype=np.bool) 
test_mask = np.zeros(num_nodes, dtype=np.bool) 
train_mask[train_index] = True 

val_mask[val_index] = True 

test_mask[test_index] = True 

adjacency = self.build_adjacency(graph) 

print("Node's feature shape: ", x.shape) 
print("Node's label shape: ", y.shape) 
print("Adjacency's shape: ", adjacency.shape) 
print("Number of training nodes: ", train_mask.sum()) 
print("Number of validation nodes: ", val_mask.sum()) 
print("Number of test nodes: ", test_mask.sum()) 


return Data(x=x, y=y, adjacency=adjacency, 
train_mask=train_mask, val_mask=val_mask, test_mask=test_mask) 


@staticmethod 
def build_adjacency(adj_dict): 
NAS SH AROE oe FE BE" 
edge_index = [] 
num_nodes = len(adj_dict) 
for src, dst in adj_dict.items(): 
edge_index.extend([src, v] for v in dst) 
edge_index.extend([v, src] for v in dst) 
# 由 于 上 述 得 到 的 结果 中 存在 重复 的 边 ， 删 掉 这 些 重复 的 边 
edge_index = list(k for k, _ in itertools.groupby(sorted(edge_index) ) ) 
edge_index np.asarray(edge_index ) 
adjacency = sp.coo_matrix((np.ones(len(edge_index) ), 
(edge_index[:, 0], edge_index[:, 1])), 
shape=(num_nodes, num_nodes), dtype="float32") 
return adjacency 


@staticmethod 
def read_data(path): 
"" "使 用 不 同 的 方式 读 取 原 始 数 据 以 进一步 处 理 """ 
name = osp.basename(path) 
if name == "ind.cora.test.index": 
out = np.genfromtxt(path, dtype="int64") 
return out 
else: 
out pickle.load(open(path, "rb"), encoding="latini" ) 
out out.toarray() if hasattr(out, "toarray") else out 
return out 








根据 GCN 的 定义 = 0(Lym 半 由) 来 定义 GCN 层 ， 代 码 直 接 根 据 定义 来 实现 ， 需 要 特 
SER NE CREP EMEN, NT SEES, EA TREERE. M 
5-3 HPTR: 


代码 清单 5-3” GCN 层 定义 





class GraphConvolution(nn.Module): 
def _ init__(self, input_dim, output_dim, use_bias=True): 
nun RA: L*X*\theta 


input_dim: int 
市 点 输入 特征 的 维度 
output_dim: int 
输出 特征 维度 
use_bias : bool, optional 
Fe MIE H tind E. 
super (GraphConvolution, self). _init_ () 
self.input_dim = input_dim 
self.output_dim = output_dim 
self.use_bias = use_bias 
self.weight = nn.Parameter(torch.Tensor(input_dim, output_dim)) 
if self.use_bias: 
self.bias = nn.Parameter(torch.Tensor(output_dim)) 
else: 
self.register_parameter('bias', None) 
self.reset_parameters() 


def reset_parameters(self): 
init.kaiming_uniform_(self.weight) 
if self.use_bias: 
init.zeros_(self.bias) 


def forward(self, adjacency, input_feature): 


ni Me RABE, RIE EUNE A KERIA 


Args 
adjacency: torch.sparse.FloatTensor 
QI fe HE BE 
input_feature: torch.Tensor 
输入 特征 


support = torch.mm(input_feature, self.weight) 
output = torch.sparse.mm(adjacency, support) 
if self.use_bias: 

output += self.bias 
retur output 





有 了 数据 和 GCN 层 ， 就 可 以 构建 模型 进行 训练 了 。 和 定义 一 个 两 层 的 GCN， 其 中 输入 
的 维度 为 1433， 隐 藏 层 维度 设 为 16， 最 后 一 层 GCN 将 输出 维度 变 为 类 别 数 7， 激 活 函 数 使 
用 的 是 ReLU。 如 代码 清单 5-4 所 示 : 


代码 清单 5-4 两 屋 GCN 的 模型 





Class GcnNet(nn.Module): 


定义 一 个 包含 两 层 GraphConvolution 的 模型 

def _ init__(self, input_dim=1433): 
super(GcnNet, self). _init_ () 
self.gcn1 = GraphConvolution(input_dim, 16) 
self.gcn2 GraphConvolution(16, 7) 


def forward(self, adjacency, feature): 
h = F.relu(self.gcni(adjacency, feature)) 
logits = self.gcn2(adjacency, h) 
return logits 





模型 构建 与 数据 准备 见 代 码 清单 5-5。 
代码 清单 5-5 ”模型 构建 与 数据 准备 





def normalization(adjacency): 
"uny L=DA-0.5 * (A+I) * D^A-0,5""" 
adjacency += sp.eye(adjacency.shape[0]) # 增加 自 连 接 
degree = np.array(adjacency.sum(1) ) 
d_hat = sp.diags(np.power(degree, -0.5).flatten()) 
return d_hat.dot(adjacency).dot(d_hat).tocoo() 


# 超 参 数 定义 

learning_rate = 0.1 

weight_decay = 5e-4 

epochs = 200 

# 模型 定义 ， 包 括 模型 实例 化 、 损 失 函 数 与 优化 器 定义 

device = "cuda" if torch.cuda.is_available() else "cpu" 
model = GcnNet().to(device) 

# TUR PR UE A SE X 

criterion = nn.CrossEntropyLoss().to(device) 

# 优化 器 使 用 Adam 


optimizer = optim.Adam(model.parameters(), lr=learning_rate, weight_decay=weight_decay ) 


# 加 载 数 据 ， 并 转换 为 torch.Tensor 


dataset = CoraData().data 


x = dataset.x / dataset.x.sum(1, keepdims=True) # 归 一 化 数据 ， 使 得 每 一 行 和 为 1 
tensor_x = torch.from_numpy(x).to(device) 
tensor_y = torch.from_numpy(dataset.y).to(device) 
tensor_train_mask = torch.from_numpy(dataset.train_mask).to(device) 
tensor_val_mask = torch.from_numpy(dataset.val_mask).to(device) 
tensor_test_mask = torch.from_numpy(dataset.test_mask).to(device) 
normalize_adjacency = normalization(dataset.adjacency)  # 规范 化 邻接 矩阵 
indices = torch.from_numpy(np.asarray([normalize_adjacency.row, 

normalize_adjacency.col])).long() 
values = torch.from_numpy(normalize_adjacency.data.astype(np.float32) ) 
tensor_adjacency = torch.sparse.FloatTensor(indices, values, 

(2708, 2708)).to(device) 





MARTER WA DAR ai AS Dox] 2k zs Tt EE FT BA VIS URIS 
5-6 AN,» HANA, BAT aU RIE P tik A EY BO 1 A So WEE EE 
率 ， 训 练 完成 后 在 测试 集 上 测试 模型 的 效果 。 


代码 清单 5-6 ”模型 训练 与 测试 





def train(): 

loss_history = [] 

val_acc_history = [] 

model.train() 

train_y = tensor_y[tensor_train_mask | 

for epoch in range(epochs): 
logits = model(tensor_adjacency, tensor_x) # 前 向 传播 
train_mask_logits = logits[tensor_train_mask] # 只 选择 训练 节点 进行 监督 
loss = criterion(train_mask_logits, train_y) # 计算 损失 值 
optimizer .zero_grad() 
loss.backward() # 反问 传播 计算 参数 的 梯度 
optimizer.step() # 使 用 优化 方法 进行 梯度 更 新 


train_acc = test(tensor_train_mask) # 计算 当前 模型 在 训练 集 上 的 准确 率 
val _ acc = test(tensor_val_mask) # 计算 当前 模型 在 验证 集 上 的 准确 率 


# 记录 训练 过 程 中 损失 值 和 准确 率 的 变化 ， 用 于 画图 

loss_history.append(loss.item() ) 

val_acc_history.append(val_acc.item()) 

print("Epoch {:03d}: Loss {:.4f}, TrainAcc {:.4}, ValAcc {:.4f}".format ( 
epoch, loss.item(), train_acc.item(), val_acc.item())) 


return loss history, val_acc_history 


def test(mask): 
model.eval() 
with torch.no_grad(): 
logits = model(tensor_adjacency, tensor_x) 
test_mask_logits = logits[mask |] 
predict_y = test_mask_logits.max(1)[1] 
accuarcy = torch.eq(predict_y, tensor_y[mask]).float().mean() 
return accuracy 





使 用 上 述 代 人 码 进行 模型 训练 ， 我 们 可 以 看 到 如 代码 清单 5-7 所 示 的 日 志 输 出 : 
代码 清单 5-7 日 志 输 出 





Using Cached file: cora/processed cora.pkl 

Epoch 000: Loss 1.9370, TrainAcc 0.3857, ValAcc 0.3520 
Epoch 001: Loss 1.8605, TrainAcc 0.4929, ValAcc 0.2760 
Epoch 002: Loss 1.7644, TrainAcc 0.7786, ValAcc 0.5120 
Epoch 003: Loss 1.6127, TrainAcc 0.7214, ValAcc 0.4600 
Epoch 197: Loss 0.1151, TrainAcc 1.0, ValAcc 0.7980 
Epoch 198: Loss 0.1136, TrainAcc 1.0, ValAcc 0.7960 


Epoch 199: Loss 0.1136, TrainAcc 1.0, ValAcc 0.7900 
Test accuarcy: 0.8050000071525574 





将 损失 值 和 验证 集 准确 京 的 变化 趋势 可 视 化 (如 图 5-9 中 的 a 图 所 示 〉， 我 们 将 最 后 一 
层 得 到 的 输出 进行 TSNE 降 维 ， 得 到 如 图 5-9 中 的 b 图 所 示 的 结果 。 


RIET 特征 TSEN 降 维 可 视 化 





训练 损失 和 验证 1 





图 5-9 ”准确 率 变 化 和 TSNE 降 维 可 视 化 


5.7 参考 文献 


[1] Shuman D I, Narang S K, Frossard P, etal.The emerging field of signal processing 
on graphs: Extending high-dimensional data analysis to networks and other irregular 
domains[J].IEEE signal processing magazine, 2013, 30 (3) : 83-98. 


[2] Strang G, Strang G, Strang G, et al.Introduction to linear algebra[M].Wellesley, 
MA: Wellesley-Cambridge Press, 2006. 


[3] F.R.Chung.Spectral Graph Theory.American Mathematical Society, 1997. 


[4] Tremblay N, Gonçalves P, Borgnat P.Design of graph filters and 
filterbanks[M ]//Cooperative and Graph Signal Processing.Academic Press, 2018: 299-324. 


[5] BrunaJ, Zaremba W, Szlam A, et al.Spectral networks and locally connected 
networks on graphs[J].arXiv preprint arXiv: 1312.6203, 2013. 


[6] Defferrard M, Bresson X, Vandergheynst P.Convolutional neural networks on 
graphs with fast localized spectral filtering[C]//Advances in neural information processing 
systems.2016: 3844-3852. 


[7] KipfT N, Welling M.Semi-supervised classification with graph convolutional 
networks|[J].arXiv preprint arXiv: 1609.02907, 2016. 


第 6 章 GCN 的 性 质 


本 章 通 过 对 GCN 的 一 些 性 质 的 集中 解读 来 加 深 读 者 对 于 GCN 的 理解 。 在 6.1 节 中 ， 我 
们 介绍 了 同 为 卷 积 模型 鸭 GCN 与 CNN 的 联系 ， 从 中 可 以 看 到 二 者 具有 非常 高 的 迁移 性 ; 
在 6.2 节 中 ， 我 们 重点 前 述 了 GCN 对 图 数据 进行 端 对 端 学 习 的 机 制 ， 在 6.3 节 中 ， 从 低 通 小 
波 器 的 视角 ， 解 释 了 GCN 对 于 图 数据 学 习 能 力 的 有 效 性 ， 同 时 可 以 看 到 这 种 频 域 视角 的 
解读 ， 对 于 指导 GCN 模 型 的 特定 设计 工作 具有 十 分 重要 的 理论 意义 ; 在 6.4 节 中 ， 我 们 介 
绍 了 GCN 模 型 所 面临 的 一 个 典型 问题 一 过 平滑 ， 该 问题 给 GCN 模 型 的 诊断 与 优化 工作 指 
出 了 明确 的 方向 。 





6.1 GCN 与 CNN 的 联系 


在 第 5 章 中 我 们 介绍 了 空域 视角 下 的 图 铭 积 操作 ， 在 这 种 视角 下 的 GCN 模 型 与 CNN 模 
型 有 着 十 分 紧密 的 共性 联系 。 从 本 质 上 看 ， 二 者 都 是 聚合 邻 域 信息 的 运算 ， 只 是 作用 的 数 
据 对 象 不 同 。 下 面 我 们 将 更 加 细致 地 总 结 出 二 着 间 的 几 点 区 别 与 联系 〈 见 图 6-1) 。 
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图 6-1 CNN 与 GCN 间 的 区 别 与 联系 
1. 图 像 是 一 种 特殊 的 图 数据 


CNN 中 的 大 积 计 算 相 较 于 GCN 中 的 若 积 计算 ， 最 大 的 区 别 是 没有 吐 式 地 表达 出 邻接 
滤 阵 ， 但 是 进行 实际 计算 的 时 候 ， 我 们 依然 十 要 考虑 数据 之 间 的 结构 关系 。 如 来 我 们 将 图 
像 中 的 每 个 像 系 视 作 一 个 节点 ， 那 么 在 第 见 的 比如 3x3 大 小 的 合 积 核 的 作用 下 ， 可 以 将 中 
心 市 反 附 近 3x3 的 栅 格 内 的 像 系 等 价 为 目 己 的 邻 硅 。 从 这 个 角度 来 看 ， 我 们 将 像 系 视 作 市 
扩 ， 将 像 系 之 间 空 间 坐 标的 连 线 作 为 彼此 之 间 的 边 ， 如 此 图 像 数 据 就 变 成 了 一 种 结构 非 当 
规则 的 图 数据 ，CNN 中 的 大 积 计 算 则 是 用 来 处 理 这 类 固定 2D 栅 格 结构 的 图 数据 。 相 较 之 
下 ,一 般 提 a 到 图 数据 ， 往 往 单 个 节操 附近 的 邻 域 结构 是 二 大 万 列 的 ， 数 据 之 间 的 关系 也 较 
为 复 末 多 样 ，GCN 中 的 若 积 计算 则 是 用 来 处 理 更 普 吉 的 非 结 构 化 的 图 数据 的 。 


2. 从 网 络 连接 方式 来 看 ， 二 者 都 是 局 部 连接 


WX; 


从 单个 节点 的 运算 过 程 来 看 ，GCN 的 计算 为 : NO, EEF ERB 


>, Wi Xij 
ALE; CNNI Jy: vel » REHE R RR MEIA A, P 


节点 下 一 层 的 特征 计算 只 依赖 于 目 身 邻 域 的 方式 ， 在 网 络 连 接 上 表现 为 一 种 局 部 连接 
的 结构 。 相 较 于 全 连接 结构 ， 局 部 连 搁 大 大 减少 了 单 层 网 络 的 计算 复杂 上 度 。 不 过 在 权重 设 
置 上 二 者 有 一 定 的 区 别 ， 由 于 图 像 数 据 中 国定 的 栅 格 结构 ，CNN 的 郑 积 核 设计 了 9 组 权重 
参数 ， 而 为 了 适应 不 同 的 图 数据 结构 ，GCN 的 卷 积 核 权 重 参 数 退 化 为 一 组 ， 从 图 6-1 中 可 
以 下 观 地 看 出 这 一 差别 。 从 拟 合 能 力 上 来 讲 ，CNN 是 更 有 优势 的 。 





3. AB AA HA HE oe MEARE ES AY 


与 CNN 一 样 ，GCN 中 的 套 积 核 也 作用 于 全 图 所 有 的 节操 ， 在 每 个 市 点 处 的 计算 中 权 
a a a 
现象 的 出 现 。 


4. 从 模型 的 层面 来 看 ， 感 受 域 随 痢 孝 积 层 的 增加 而 要 大 


每 多 一 层 卷 积 计算 ， 中 心 节点 就 能 多 融合 进 更 外 一 “ 圈 * 的 信息 。 如 图 6-2 所 示 ， 在 
CNN 中 ， 中 心 的 感受 域 从 第 一 层 的 3x3， 到 第 二 层 的 5x5， 在 不 断 地 扩大 。 在 GCN 中 ， 中 
心 节点 可 以 融合 的 信息 从 一 阶 邻居 拓展 到 二 阶 邻居 ， 二 者 的 感受 域 都 随 着 卷 积 层 的 增加 而 
变 大 。 同 时 ， 我 们 可 以 看 到 ， 在 这 两 类 模型 中 ， 节 点 自身 特征 的 更 新 是 与 卷 积 运算 强 耦 全 
在 一 起 的 ， 每 一 个 新 卷 积 层 的 加 入 ， 都 可 以 使 节点 获得 更 加 抽象 化 的 特征 表示 。 





a) b) 
图 6-2” CNN 与 GCN 的 感受 域 


另外 ， 从 学 习 任 务 上 来 看 ，CNN 与 GCN 也 有 着 非常 强 的 可 类 比 性 。 图 6-3 中 的 a 图 和 Pb 
图 展示 了 计算 机 视觉 中 的 两 大 主流 任务 : 图 像 分 类 与 图 像 分 制 。 图 像 分 类 是 一 种 需要 对 数 
据 全 局 信息 进行 学 习 的 任务 ， 这 对 应 于 全 图 层面 的 图 分 类 任务 ， 如 图 6-3 的 c 图 所 示 ， 人 研究 
ee ee Parner ne enema EY Ie 
进行 分 类 。 





c) 图 分 类 NC: 正常 AD: 阿尔 茨 海 默 症 患者 “MCI: 轻 度 认 知 障碍 患者 


和 A : @ 数学 
3 等 9 ae - W, 
| eV EVA | @ 化 学 
: e 

: a 名 

: e 号 


® al i ð. : 
i o € : > GNN > y 
Rel i / i 
: @ ee a ad : 
2 sth @ 物理 





d) 引文 网 络 节 点 分 类 


图 6-3 ”CNN 与 GCN 任 务 对 比 [HD 


如 图 6-3 中 的 b 图 所 示 的 图 像 分 割 是 一 种 需要 对 像 系 及 其 局 部 信息 进行 整合 学 习 的 任 
务 ， 柑 型 最 后 需要 对 每 个 像 系 进行 分 类 判定 ， 这 与 图 数据 中 市 点 层面 的 市 点 分 类 任务 对 
应 ; 图 6-3 中 的 d 图 展示 了 了 GCN 如 何 基 于 论文 应 用 数据 集 对 图 中 的 每 个 市 点 (代表 论文 ) 进 
行 学 科 关 别 分 闫 。 作 为 一 种 重要 的 图 数据 学 习 模 型 ，GCN 及 其 衍生 模型 的 任务 主要 包括 
图 分 类 以 及 太 扩 分 类 。 


GCN 与 CNN 的 这 种 强 关 联 特性 ， 使 得 二 者 在 多 个 方面 都 有 很 蜗 的 可 类 比 性 ， 这 给 
GCN 的 设计 和 有 友 展 工作 捐 明 了 方向 ， 在 本 书 第 8 章 讲 图 分 类 模型 的 时 候 ， 我 们 会 再 一 次 看 
到 这 种 借鉴 所 产生 的 作用 。 


[1] HARI: https://ccvl.jhu.edu/datasets/。 
[2] HARI: https://www.frontiersin.org/articles/10.3389/fncom.2018.00031/full. 


6.2 GCN XT A He ET im OT vin SE 


EJLE, GEARS AACE, mA m “J ARF OR ER, TEA, AEF 
J HY BOATS AN FP mA i I AE FS Lil] mA mK A SI A HE 
REFIT EAL PAM, va nS I RE CREAR, TEER AIT A a Ae 
的 针对 特定 类 型 数据 的 学 习 任务 的 适 配 工 作 ， 这 种 适 配 体现 在 当下 十 分 流行 的 各 种 网 络 层 
或 层 块 结构 (block) 的 设计 上 ， 比 如 我 们 熟知 的 Conv2D 层 对 于 图 像 数 据 的 学 习 、LSTM 
层 对 于 序列 数据 的 学 习 、Global Pooling 层 对 于 全 局 信息 的 提取 和 每。 这些 层 的 计算 过 程 必 
须 最 大 限度 地 按照 我 们 期 望 的 方式 去 适 配 数据 的 内 在 规律 模式 。 大 量 的 实践 丝 验 告诉 我 
们 ， 深 度 学 习 能 够 在 未 个 场景 任务 中 取得 极其 优秀 的 效 朱 ， 很 大 程度 上 得 蔓 于 这 闫 网 络 层 
或 者 由 该 网 络 层 所 构建 的 网 络 层 块 的 定制 化 设计 。 


PR 0 
AE RT, o 


在 第 1 章 中 ， 我 们 介绍 了 属性 图 是 一 种 最 广泛 的 图 数据 表现 形式 。 在 属性 图 里 面 ， 每 
HRA H CRE. BR 6-4 Fakta, ERENER RR, AP RE 
PEA AAP eS, KEREN HP Alice Por. EF, RIT DBA 
ADS ABER A, FEIRATEBE FE, AST ARAB Ye #20 PA 28 FTE AVA. B 
6-4 中 的 b 图 所 示 为 乙 醒 和 甲 醚 的 分 子 式 和 分 子 结构 ， 昌 然 二 者 的 分 子 式 均 为 C,H6O， 但 是 
由 于 分 子 结构 不 同 ， 二 者 具有 不 同 的 理化 性 质 。 


总 结 上 面 两 个 例子 ， 我 们 可 以 友 现 ， 图 数据 中 同时 包含 痢 两 部 分 信息 : 属性 信息 与 结 
构 信 息 。 属 性 信息 摘 述 了 图 中 对 象 的 固有 性 质 ; iM fe tI STAC TA EN, X 
种 由 关联 所 产生 的 结构 不 仅 对 图 数据 中 节 扣 的 刻画 具有 很 大 的 帮助 作用 ， 而 且 对 该 全 图 的 
刻 务 也 起 看 关键 作用 。 一 个 优 夯 的 针对 图 数据 的 学 习 系 统 ， 必 须 能 够 做 到 对 属性 信息 和 结 
构 信 息 进 行 儿 对 端的 学 习 。 
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a) 社交 网 络 b) 甲醛 和 乙醇 分 子 结构 
图 6-4 ”图 数据 示例 


下 面 我 们 来 看 看 GCN 的 设计 是 起 么 去 适 配 图 数据 的 内 在 规律 的 。 为 了 更 形象 地 阐述 
GCN 对 于 图 数据 的 员 对 并 学 习 能 力 ， 我 们 将 之 击 拓 到 的 两 类 非 第 典型 的 图 数据 学 习 方 式 


一 基于 手工 特征 与 基于 随机 游 走 的 方法 进行 对 比 。 一 般 来 说 ， 图 数据 中 属性 信息 的 处 理 是 
比较 简单 的 ， 按 照 属性 的 类 型 进行 相应 的 编码 设计 ， 然 后 将 其 拼接 成 一 个 表示 而 点 属性 的 
特征 回 量 束 可 以 了 ， 但 是 结构 信息 理 合 在 蔬 点 之 间 的 关系 中 ， 是 比较 难处 理 的 。 我 们 所 对 
比 的 两 个 方法 的 核心 都 是 在 如 何 处 理 图 的 结构 信息 上 ， 如 图 6-5、 图 6-6 所 示 。 








图 6-5 ”基于 手工 特征 的 方法 


图 6-5 所 示 的 方法 是 基于 手工 特征 的 方法 ， 该 方法 对 于 图 数据 的 处 理 方式 非常 依赖 人 
工 干预 ， 具 体 来 说 ， 就 是 将 图 中 节点 的 结构 信息 以 一 些 图 的 统计 特征 进行 蔡 代 ， 常 见 的 如 
节点 的 度 、 节 点 的 中 心 度 、 节 点 的 PageRank 值 等 ， 然 后 将 这 个 代表 节点 结构 信息 的 特征 
向 量 与 代表 节点 属性 信息 的 特征 向 量 拼接 在 一 起 ， 送 到 下 游 进行 任务 的 学 习 。 这 种 方法 的 
最 大 问题 在 于 ， 表 示 结 构 信 息 的 特征 向 量 需 要 人 为 定义 ， 因 此 很 难 确定 这 些 统计 特征 是 否 
对 学 习 后 面 的 任务 有 效 。 
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图 6-6 ”基于 随机 游 走 的 方法 


图 6-6 所 示 的 方法 是 基于 随机 游 走 的 方法 ， 随 机 游 走 是 网 络 表示 学 习 中 最 具 代 表 性 
的 方法 之 一 ， 其 基本 思想 是 将 图 中 而 点 所 满足 的 关系 与 结构 的 性 质 映射 到 一 个 新 的 同 量 衬 
则 去 ， 比 如 在 图 上 距离 更 近 的 两 个 节点 ， 在 新 的 癌 量 空间 上 的 距离 也 更 近 。 退 过 这 样 的 优 
化 目标 将 图 里 面 的 数据 ， 转 化 成 回 量 空间 里 面 的 数据 ， 这 样 处 理 起 来 束 会 更 加 方便 。 接 下 
来 ， 充 方法 和 基于 手工 特征 的 方法 的 思路 一 梓 ， 将 代表 布点 结构 信息 的 特征 癌 量 与 代表 节 
FRR VE Ta A APE a) ET Re, PARED PURVES SA. PANTIE, FT EN Za 
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图 6-7 基于 GCN 的 方法 


GCN 对 于 属性 信息 和 结构 信息 的 学 习 体 现在 其 核心 计算 公式 上 : 人 ym 个人， 这 一 计算 
过 程 可 以 被 分 拆 成 两 步 : 


第 1 步 : XW 是 对 属性 信息 的 仿 射 变换 ， 学 习 了 属性 特征 之 间 的 区 互 模式 ; 


第 2 步 : 人 ym(X") 从 空域 来 看 是 聚合 邻居 节点 的 过 程 ， 代 表 了 对 节点 局 部 结构 信息 的 


为 了 更 进一步 说 明 GCN 对 于 图 中 的 结构 信息 的 学 习 能 力 ， 我 们 来 看 一 个 经 典 的 图 论 
问题 一 图 的 同 构 问题 (graph isomorphism problem) ， 即 给 定 两 个 图 ， 判 断 这 两 个 图 是 人 否 
TEE EM 


图 G 到 图 互 的 同 构 映 射 





图 6-8 Alla! 
从 图 6-8 中 我 们 可 以 发 现 ， 即 使 看 上 去 并 不 相似 的 两 个 图 ， 也 有 可 能 是 完全 等 价 的 。 


Mik aS AE CPT a LEE, RRR Sl, Pe Se ERE Ae Ra 
分 辨 能 力 。 一 个 经 典 的 解法 就 是 Weisfeiler-Lehman 算 法 局 ，Weisfeiler-Lehman 算 法 是 一 个 
迭代 式 的 算法 ， 其 算法 流程 如 下 所 示 : 


对 于 图 上 任意 一 个 节点 vi 
1 获取 邻居 节点 wEN (vi) 的 标签 hi 


_ h,—hash(<h, . wy 
2 .更 新 v. 的 标签 ”““"*  ， 其 中 hash (.) 是 一 个 单 射 函数 〈 一 对 一 映射 ) 。 


我 们 可 以 看 到 ， 上 上述 过 程 与 节点 层面 的 GCN 计 算 过 程 基本 一 致 : 友 代 式 地 聚合 邻 后 
节 扣 的 特征 ， 从 而 更 新 当前 市 态 的 特征 。 从 这 个 角度 来 看 ，GCN 近 似 于 一 种 禹 参 的 、 文 
持 目 动人 微分 的 Weisfeiler-Lehman 算 法 。 在 引文 [3] 中 介绍 了 一 种 GCN 的 衍生 模型 一 Graph 
Isomorphism Network (GIN) ， 实 验证 明 ， 其 在 判断 图 同 构 的 问题 上 ， 能 力 近 平等 价 于 
Weisfeiler-Lehman 算 法 。 


在 GCN 模 型 中 ， 通 过 堆肥 图 卷 积 层 ， 上 述 属 性 信息 的 编码 学 习 与 结构 信息 的 编码 学 
习 被 不 断 地 交 蔡 进行 ， 如 是 完成 对 图 数据 中 更 加 复杂 的 模式 学 习 。GCN 相 较 于 上 面 述 的 
种 方法 ， 有 如 下 两 点 优势 


(1) GCN 对 表示 学 习 和 任务 学 习 一 起 进行 中 对 痕 的 优化 ， 在 前 述 两 种 方法 中 ， 节 所 
的 特征 问 量 一 旦 被 拼接 起 来 就 会 被 固化 下 来 ， 下 游 任务 学 习 中 产生 的 监督 信和 与 并 不 能 有 效 
导 图 数据 的 表示 季 习 ， 这 可 能 会 使 市 上 的 特征 表示 对 于 下 游 的 任务 不 是 最 局 效 的 。 相 
反 ，GCN 对 于 图 数据 的 建 柑 并 没有 切 分 成 两 步 来 完成 ， 对 于 市 扣 的 表示 学 习 与 下 游 的 任 
务 学 习 锌 放 到 一 个 模型 里 面 进行 闹 对 端 学 习 ， 整 个 模型 的 监督 信 写 同时 指导 看 任务 层 〈 如 
NRE) 和 GCN 层 的 参数 更 新 ， 节 点 的 特征 表示 与 下 洲 任 务 之 间 具 有 更 好 的 适应 性 。 


(2) GCN 对 结构 信息 与 属性 信息 的 学 习 是 同时 进行 的 ， 并 没有 进行 分 拆 和 解构 。 通 
钊 来 说 ， 属 性 信息 与 结构 信息 具有 很 好 的 互补 关系 ， 对 于 一 些 结构 黎 臣 的 图 来 说 ， 属 性 信 
晨 的 补充 可 以 很 好 地 提 融 模型 对 节 扣 表示 学 习 的 质量 ， 为 外 ， 结 构 信 息 强 含 看 属性 信息 中 
所 没有 的 知识 ， 对 市 点 的 刻画 其 有 十 分 重要 的 作用 。GCN 将 结构 信息 与 属性 信息 放 进 一 
个 网 络 层 里 面 同时 进行 和 学 习 ， 使 二 者 能 够 协同 式 地 去 影响 最 终 节 所 的 表示 。 


忌 的 来 说 ，GCN 模 型 将 学 习 过 程 下 接 构 染 于 图 数据 之 上 ， 为 图 数据 的 学 习 提 供 了 一 
套 病 对 站 的 框 染 ， 对 相关 的 任务 学 习 上 其 有 更 好 的 适应 性 。 


[1] 图 片 来 源 : https://zh.wikipedia.org/wiki/。 

















6.3 GCN 是 一 个 低 通 滤波 器 


在 图 的 半 监 督学 习 任务 中 ， 通 利 会 在 相应 的 损失 函数 里 面 增加 一 个 正则 项 ， 该 正则 项 
要 体 证 相 邻 布点 之 间 的 类 别 信 息 赵 于 一 致 ， 一 般 情 况 下 ， 我 们 选用 拉 音 拉 斯 年 阵 的 二 次 
型 作为 正则 约束 : 





(6.1) 








L=L, +L Lp = 》 4 
reg reg U 外 
e; cE 


FLL AS AN ARAL IN ATR, Lote aN EK P MRL» 从 学 习 的 目标 来 看 ， 
这 样 的 正则 项 使 得 相 邻 市 点 的 分 类 标签 尽量 一 人 怪 ， 这 种 物 以 类 聚 的 和 完 验 知识 ， 可 以 指导 
们 更 加 高 效 地 对 未 标记 的 数据 进行 学 习 。 从 图 信和 号 的 角度 来 看 ， 我 们 知道 该 正则 项 也 表示 
图 信 吕 的 总 变 兰 ， 减 小 该 项 表示 我 们 期 望 经 过 模型 之 后 的 图 信和 号 更 加 平滑 ， 根 据 前 面 第 5 
草 中 所 学 的 知识 ， 从 频 域 上 来 看 ， 相 当 于 对 图 信号 做 了 低 通 滤波 的 处 理 。 


在 GCN 的 损失 函数 中 ， 我 们 通 第 并 不 会 设计 这 样 的 正则 项 。 但 是 有 研究 表明 ， 引 文 
[4] 中 将 GCN 视 为 一 种 低 通 滤波 右 ， 下 面 阐述 具体 的 过 程 : 


器 到 GCN 的 核心 计算 式 LmX 太 上， 体现 图 滤波 的 地 方 就 在 于 左 乘 了 一 个 重 归 一 化 形 
BOME, RA, E VEE, RIAD 
须 去 研究 Lym 对 应 的 频率 响应 函数 p(X)〉 的 性 质 。 


~ 


L =D AD™ =D" (D-DD =LD "LD" = LI (6.2) 


Sym AY 


~ 


由 于 及 可 以 被 正 交 对 角 化 ， 我 们 设 及 = VAV, 二 是 到 的 特征 值 ， 可 以 证 明 
A, © [0, 2)t51. 


因此 式 (6.2) 变 为 : 


L = LVAV = IAr (6.3) 


SVM 


显然 ， 其 频率 响应 函数 为 PC) = 1-4, E [-1，1)， 该 函数 是 一 个 线性 收缩 的 函数 ， 
因此 能 起 到 对 图 信号 进行 低 通 滤波 的 作用 。 


如 果 将 信号 矩阵 X 不 断 左 乘 K 次 如 "， 则 对 应 频率 响应 函数 为 (1- 和 )” ， 图 6-9 所 示 为 访 
函数 的 图 像 : 
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GCN 模 型 对 于 信号 的 平滑 能 力 。 事 实 上 ， 为 了 更 好 地 突出 这 种 能 力 、 减 少 模型 的 参数 


量 ， 在 引文 中 2[6] 中 直接 将 多 层 GCN 退 化 成 (LmXW)， 


为 什么 要 突出 对 数据 的 低 退 小 波 呢 ?或 者 说 ， 多 层 GCN 的 这 种 小 流 效 果 对 于 图 数据 
的 任务 学 习 会 更 加 高 效 吗 ? 在 引文 中 中 ， 作 者 论证 了 一 个 关于 图 数据 的 假设 一 输入 数据 的 
符 征 信和 二 包 括 低频 信号 与 蜗 频 信号 ， 低 频 信号 包含 看 对 任务 学 习 蝎 加 有 效 的 信息 。 


为 此 ， 作 者 在 Cora、Citeseer、Pubmed 数 据 集 上 做 了 实验 ， 这 3 个 数据 集 都 是 论文 引用 
网 络 ， 节 点 是 论文 ， 边 是 论文 之 间 的 引用 关系 。 作 者 设计 了 一 个 实验 ， 通 过 低 通 滤波 堆 抒 
数据 中 的 高 频 信息 ， 然 后 使 用 剩 下 的 低频 信息 进行 分 类 学 习 ， 有 具体 过 程 如 下 : 








(1) 对 数据 集 的 如 进行 正 交 对 角 化 ， 得 到 健 里 叶 基 V， 


(2) 对 输入 的 信号 矩阵 增加 高 斯 噪声 X-X+N (0，o*) ， 其 中 o= (0, 0.01, 
0.05) 。 


(3) 计算 输入 的 信号 矩阵 在 前 k 个 最 小 频率 上 的 传 里 叶 变 换 系数 入 (TE: 和) 六 X 


(4) 利用 逆 侍 里 叶 变 换 重 构 信 号 和 =D VE AX, 
(5) 将 重 构 后 的 信号 送 到 一 个 两 层 的 MLP 网 络 进行 分 类 学 习 ， 并 记录 准确 率 。 
图 6-10 所 示 为 重 构 信号 用 的 频率 分 量 的 比例 前 k 个 最 小 频率 占 总 频率 数 的 比例 ) 与 
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4 中 的 一 种 GCN 的 变 体 模型 ) 与 双 层 MLP 上 的 分 类 准确 率 (3 组 图 中 的 上 部 gfNN 与 中 部 
MLP 水 平 虚线 ) 来 进行 对 比 。 从 该 独 中 可 以 看 出 ， 在 3 个 数据 集 上 ， 最 高 的 分 基准 确 率 集 
中 在 仅 用 最 小 的 前 20% 的 频段 恢复 信号 的 实验 中 ， 增 加 电 频 信息 参与 信号 午 构 ， 模 型 的 分 
类 效 末 会 下 降 。 同 时 ， 增 加 融 斯 曲 声 会 造成 分 类 准确 紊 下 降 ， 这 种 效应 随 看 各 构 所 用 的 频 
率 分 量 的 比例 的 增加 而 增强 ， 这 说 明了 使 用 低 通 滤波 对 数据 进行 去 吗 的 有 效 性 。 作 为 对 比 
实验 ， 我 们 可 以 看 到 ， 即 使 在 原始 的 输入 数据 上 ，gfNN 也 能 取得 所 有 实验 中 的 最 好 效 
末 ， 这 说 明 gfNN 本 里 束 上 共有 低 退 小 波 的 作用 。 


Ek 20 oo WE | e ee ee n 





~ 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 
频率 分 量 比例 频率 分 量 比例 频率 分 量 比 例 


图 6-10 ”实验 结果 中 


从 本 节 的 介绍 中 可 以 看 到 ， 从 频 域 去 理解 图 数据 以 及 GCN 部 具有 十 分 重要 的 价值 。 
对 数据 有 效 频 率 成 分 的 分 析 可 以 指导 我 们 友 现 数据 的 内 在 规律 ， 从 而 更 好 地 设计 符合 特定 
项 求 的 滤波 右 ， 让 GCN 对 于 任务 的 局 效 学 习 做 到 有 的 放 夭 。 
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6.4 _ GCN 的 问题 一 过 平滑 

引文 [7][8] 都 指出 了 GCN 模 型 无 法 像 视觉 任务 中 的 CNN 模 型 一 样 堆 释 很 深 ， 一旦 使 用 
多 层 GCN 进 行 学 习 ， 相 关 的 任务 效果 就 会 急剧 下 降 。 这 使 得 在 革 些 场景 中 ，GCN 的 学 习 
能 力 将 非常 有 限 。 

在 引文 四 中 ， 作 者 在 Core 数 据 集 上 做 了 一 个 实验 ， 直 观 地 展示 了 多 层 GCN 所 遇 到 的 这 
个 问题 ， 如 图 6-11 所 示 。 





d) 4-layer e) 5-layer 


图 6-11 GCN 效 来 随 层 数 增加 而 及 生 的 变化 


图 6-11 是 Cora 数 据 集 分 别 经 过 一 个 1 至 5 层 的 GCN 后 节点 的 表示 问 量 的 散 点 图 ， 数 据 的 
原始 输入 是 16 维 ， 最 后 模型 的 输出 层 是 2 维 。 观 察 该 图 ， 我 们 可 以 发 现 ， 在 一 层 GCN 模 型 
下 ， 两 类 节点 并 不 能 很 好 地 区 分 ， 在 二 层 GCN 模 型 下 ， 两 类 节点 已 经 能 秀 好 地 区 分 ， 如 
果 继 续 加 深 模 型 的 层 数 ， 两 类 节点 会 逐渐 混合 在 一 起 ， 区 分 度 将 大 大 降低 。 


通过 上 面 这 个 例子 ， 我 们 可 以 发 现 ， 在 使 用 多 层 GCN 之 后 ， 节 点 的 区 分 性 变 得 越 来 
越 甜 ， 贡 点 的 表示 回 量 趋 于 一 致 ， 这 使 得 相应 的 学 习 任务 变 得 更 加 困难 。 我 们 将 这 个 现象 
称 为 多 层 GCN 的 过 平滑 (Over-Smooth) 问题 。 

在 6.3 市 中 我 们 论证 过 ，GCN 相 当 于 对 输入 信号 做 了 一 个 低 退 滤波 的 操作 ， 这 会 使 信 
写 变 得 更 加 平 消 ， 这 也 是 GCN 模 型 的 一 个 内 在 优势 。 但 是 ， 过 犹 不 及 ， 多 次 执行 这 类 对 
言 号 不 断 平 滑 的 操作 之 后 ， 信 和 号 会 越 来 越 趋同 ， 也 就 录 失 了 点 特征 的 多 样 性 。 下 面 我 们 
分 别 从 频 域 和 空域 视角 去 理解 过 平滑 问题 。 


1. 频 域 视角 





事实 上 ， 我 们 可 以 从 GCN 的 频率 响应 函数 PCD) = Ap Be ya ee BE — A 


Jim Ls = fim (I~ L,) (6.4) 
= lim (V(1- AV") 
(1-4) l 
= tim V (1-A,)* yt 
(1- A, )' 


由 于 (1-4) ECL D, gantin, A= 1， 由 于 其 他 的 特征 值 都 大 于 
0《〈 这 里 假设 图 是 全 连通 图 ， 仅 存在 一 个 特征 值 为 0) ， 因 此 取 极 限 之 后 的 结果 为 : 


] 
om 0 or 
lim L ， =y 4 (6.5) 
k=>+to . 

0 
MRM AES Ax, MWA: 

] 
汪汪 0 | D 
lim Lynx =V V"x=(xev,)v, =XV, ( 6.6 ) 





其 中 w 是 心 的 最 小 频率 4 = Op REE, V eR SS x PE A p 
系数 。 


LD = 万 -127 万 -2 万 121 = D"*11 = 万 -120 = 0 即 L(D"’1) = jj (这 里 使 用 到 了 
一 个 性 质 一 拉 普 拉 斯 矩阵 工人 存在 值 全 为 1 的 特征 同 量 ， 其 对 应 特征 值 为 0) 。 





~ 


ait, =D 1 是 上 在 负 处 的 特征 向 量 ， 该 向 量 是 一 个 处 处 相等 的 向 量 。 所 以 ， 
如 果 对 一 个 图 信号 不 断 地 执行 平滑 操作 ， 图 信号 最 后 就 会 变 得 处 处 相等 ， 也 就 完全 没有 可 


区 分 性 了 。 
2. 空 域 视 角 


在 引文 台中 ， 作 者 从 空域 角度 解释 了 为 什么 多 层 GCN 会 出 现 效果 不 好 的 现象 。 从 空域 
来 看 ，GCN 的 本 质 是 在 聚合 邻 大 信息 ， 对 于 图 中 的 任意 市 反而 言 ， 市 反 的 特征 每 更 狐 一 
K, WERA S EMRET AA E o WRR TIE R E T A I AERA TAT A 
聚合 半径 ， 我 们 可 以 友 现 ， 随 看 GCN 层 数 的 增加 ， 市 扣 的 聚合 半径 也 在 增长 ， 一 旦 a 到达 
RAE, BRA iDEA Sea WB. TAY, MRR BES, BEDS 
Hee an SUAS ARSE TT, KAMAE ERA. IPP LL, BKK 
降低 每 个 节点 的 局 部 网 络 结构 的 多 样 性 ， 对 于 市 点 自身 特征 的 学 习 十 分 不 利 。 


图 6-12 所 示 为 对 方块 节点 的 邻居 信息 进行 聚合 的 结果 ， 不 同 的 是 a 图 中 的 方块 节点 处 
于 图 的 中 心 ， 而 b 图 中 的 方块 节点 处 于 图 的 边缘 。 在 4 层 GCN 之 后 ，a、b 两 图 的 方块 节点 
的 聚合 半径 虽然 一 致 ， 但 是 履 盖 的 节点 却 是 非常 不 一 样 的 ， 如 图 中 的 赣 色 节点 所 示 。 如 果 
继续 增加 一 层 GCN，b 图 中 的 节点 可 禾 盖 的 节点 会 迅速 扩大 ， 从 而 覆盖 图 中 中 心 区 域 的 节 
点 ， 如 c 图 中 的 葛 色 节点 所 示 。 这 种 突变 现象 导致 两 个 方块 节点 聚合 的 节点 网 络 趋 于 一 
致 ， 模 型 对 于 a 图 、b 图 中 两 个 节点 的 区 分 将 会 变 得 十 分 困难 。 


关于 如 何 应 对 过 平滑 ， 上 文 基于 聚合 半径 与 模型 层 数 的 关系 ， 提 出 了 自 适 应 性 聚合 半 
径 的 学 习 机 制 ， 其 实现 的 方式 十 分 直观 ， 就 是 通过 增加 跳跃 连接 来 聚合 模型 的 每 层 节点 的 
和 输出， 聚合 后 的 节点 特征 拥有 混合 性 的 聚合 半径 ， 上 层 任务 可 对 其 进行 选择 性 的 监督 学 
习 ， 这 样 对 于 任意 一 个 节点 而 言 ， 既 不 会 因为 聚合 半径 过 大 而 出 现 过 平滑 的 问题 ， 也 不 会 
因为 聚合 半径 过 小 ， 使 得 节点 的 结构 信息 不 能 充分 学 习 〈 见 图 6-13) 。 











a) 从 方块 节点 聚合 4 步 b) 从 方块 节点 聚合 4 步 c) 从 方块 布点 聚合 5 步 


图 6-12 ”对 不 同 节点 的 聚合 结果 中 
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hË = ph 








输入 节点 v 的 特征 : X, E RY 
图 6-13 ”聚合 过 程 “ 
图 6-13 说 明了 这 种 层级 聚合 的 学 习 机 制 ， 在 图 6-13 中 ，4 层 图 模型 的 输出 都 会 通过 跳 
跃 连接 与 最 终 的 聚合 层 相 连 ， 聚 合 操作 可 以 取 如 拼接 、 平 均 池 化 、 最 大 池 化 等 ， 聚 合 层 的 
输出 会 作为 整个 模型 的 输出 送 到 相应 的 监督 任务 中 进行 学 习 。 


妨 一 种 廊 法 是 回 到 频率 视角 去 调节 图 滤波 副 的 倡 ， 在 引文 [9] 中 ， 使 用 了 重新 分 配 权 
重 的 方式 来 增加 和 4 中 节点 自 连接 的 权重 : 
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第 7 章 ”GNN 的 变 体 与 框架 


作为 深度 学 习 与 图 数据 结合 的 代表 性 方法 ，GCN 的 出 现 带 动 了 将 神经 网 络 搁 术 运 用 
于 图 数据 的 学 习 任 务 中 去 的 一 大 类 方法 ， 为 了 给 出 一 个 涵盖 更 广 范 围 的 定义 ， 一段 我 们 统 
称 这 类 方法 为 图 神经 网 络 ， 即 Graph Neural Networks (GNN) . 


在 之 前 的 章节 我 们 提 到 从 空域 视角 看 GCN， 本 质 上 就 是 一 个 迭代 式 地 聚合 邻居 的 过 
程 ， 这 司 肥 了 一 大 类 企 型 对 于 这 种 缚 合 操作 的 重新 设计 ， 这 些 设计 在 茶 些 方面 大 大 加 强 了 
GNN 对 于 图 数据 的 适应 性 。 基 于 对 这 些 设计 的 解构 ， 一 些 GNN 的 通用 表达 框 杂 也 相继 被 
提出 ， 这 些 框架 从 更 加 统一 的 层面 抽象 出 了 GNN 的 一 般 表 达 方 式 ， 为 GNN 的 模型 设计 工 
作 提 供 了 统一 范式 。 


在 本 半 中 ， 我 们 束 上 述 两 个 方面 的 内 容 进 行 讲解 来 加 强 读 者 对 GNN 的 认识 。 本 章 的 
前 三 贡 分 别 介 绍 了 3 种 GNN 的 典型 变 体 模型 。 在 7.4 节 ， 我 们 同时 介绍 了 3 种 GNN 的 通用 表 
TAREE. 7.5 XT GraphSAGERAAY, HES S FAM A SERRA 


7.1 GraphSAGE 


本 节 介 绍 的 GraphSAGEIH 从 两 个 方面 对 GCN 做 了 改动 ， 一 方面 是 通过 采样 邻居 的 策 
略 将 GCN 由 全 图 (full batch) 的 训练 方式 改造 成 以 节点 为 中 心 的 小 批量 (mini batch) 训 
练 方式 ， 这 使 得 大 规模 图 数据 的 分 布 式 训练 成 为 可 能 ， 男 一 方面 是 该 算 法 对 聚合 邻居 的 操 
作 进 行 了 拓展 ， 提 出 了 蔡 换 GCN 操 作 的 几 种 新 的 方式 。 





7.1.1 采样 邻 后 


在 之 前 的 GCN 模 型 中 ， 训 练 方式 是 一 种 全 图 形式 ， 也 惑 是 一 轮 和 迭 代 ， 所 肌 点 样本 
的 损失 只 会 贡献 一 次 梯度 数据 ， 无 法 做 到 DNN 中 通常 用 到 的 小 批量 式 更 新 ， 这 从 梯度 更 
新 的 次 数 而 言 ， 效 率 是 很 低 的 。 态 外 ， 对 于 很 多 实际 的 业务 场景 数据 而 言 ， 图 的 规 便 往往 
旦 十 分 巨大 的 ， 单 张 显 卡 的 显存 容量 很 难 达到 一 整 张 图 训练 时 所 需 的 空间 ， 为 此 采用 小 批 
量 的 训练 方法 对 大 规模 图 数据 的 训练 进行 分 布 式 拓展 是 十 分 必要 的 。GraphSAGE 从 聚合 
邻居 的 操作 出 友 ， 对 邻居 进行 随机 灯 样 来 控制 实际 运算 时 节操 k 了 于 图 的 数据 规模 ， 在 此 
基础 上 对 采样 的 子 图 进行 随机 组 合 来 完成 小 批量 式 的 训练 。 


在 GCN 模 型 中 ， 我 们 知道 节点 在 第 (kt+1) 层 的 特征 只 与 其 邻居 在 k 层 的 特征 有 关 ， 
这 种 局 部 性 质 使 得 市 点 在 第 k 层 的 特征 只 与 上 自己 的 k 阶 了 于 图 有 关 。 对 于 图 7-1 中 的 中 心 节 扣 
( 查 色 市 后 )， 假 设 GCN 模 型 的 层 数 为 2， 石 要 想得到 其 第 2 层 特征 ， 图 中 所 有 的 市 点 部 
需要 参与 计算 。 
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图 7-1 采样 邻居 


虽然 根据 上 述 阐述 ， 我 们 只 需要 考虑 节点 的 k 阶 子 图 就 可 以 完成 对 节点 高 层 特征 的 计 
算 ， 但 是 对 于 一 个 大 规模 的 图 数据 来 说 ， 我 们 直接 将 此 思路 迁移 过 来 仍然 存在 以 下 的 两 个 


问题 : 


(1) FR SAE EMU KA. PP ERT, Bak 


2 k 
层 GCN， 则 k 阶 子 图 平均 出 现 1 + 4d + do 十 … 十 4d 个 节点 ， 如 果 4d =10, k=4, W 
么 就 有 11111 个 节点 要 参与 计算 ， 这 会 导致 很 高 的 计算 复杂 上 度 。 


(2) 真实 世界 中 图 数据 节操 的 度 往往 呈现 蚌 律 分 布 ， 一 些 市 点 的 度 会 非常 大， 我们 
称 这 样 的 市 点 为 超级 节操， 在 很 多 图 计算 的 问题 中 ， 超 级 节操 部 是 比较 难处 理 的 对 象 。 在 
这 里 ， 由 于 超级 节 扣 本 里 邻 大 的 数目 束 很 大 ， 青 加 上 了 于 图 市 点 数 呈 指 数 级 增长 的 问题 ， 这 
种 闫 型 节点 高 层 特征 计算 的 代价 会 变 得 更 加 融 昂 。 


对 于 上 述 两 种 情况 的 出 现 ， 通 历 子 独 的 时 间 人 代价、 模型 训练 的 计算 代价 与 存储 代价 都 
会 变 得 十 分 不 可 控 。 为 此 ，GraphSAGE 使 用 了 非常 目 然 的 采样 邻居 的 操作 来 控制 子 图 及 
散 时 的 增长 率 。 有 基体 做 法 如 下 : 设 每 个 节点 在 第 k 层 的 邻 届 采样 倍率 为 Se《〈 访 参数 为 
GraphSAGE 算 法 的 超 参 数 ， 由 用 户 目 行 设计 与 调节 ) ， 即 每 个 节点 采样 的 一 阶 邻 让 总 数 








ol TTS, 

不 超过 S$.， 那 么 对 于 任意 一 个 中 心 节 点 的 表达 计算 ， 所 涉及 的 总 节点 数 将 在 Hs has 
级 别 。 对 于 一 个 两 层 的 模型 来 说 ， 如 果 设 Sij=3，S>=2， 则 总 的 节点 数 不 会 超过 
1+3+3x2=10 个 。 这 里 对 节点 采样 ，GraphSAGE 选 择 了 均匀 分 布 ， 事 实 上 根据 工程 效率 或 
者 数据 的 业务 背景 ， 我 们 可 以 采用 其 他 形式 的 分 布 来 蔡 代 均匀 分 布 避 8 。 


GraphSAGE 通 过 采样 邻居 的 宋 略 ， 使 得 村 图 节 氮 的 规模 始终 维持 在 阶乘 级 别 以 下 ， 
同时 也 从 工程 上 给 模型 层 数 的 增加 市 管 出 了 相应 空间 。 
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7.1.2 ”聚合 邻 后 


GraphSAGE 研 究 了 聚合 邻 后 操作 所 需 的 性 质 ， 并 且 提 出 了 几 种 新 的 聚合 操作 
(aggregator) ， 需 满足 如 下 条 件 : 


(1) 聚合 操作 必须 要 对 聚合 节点 的 数量 做 到 目 适 应 。 不 管 节 点 的 邻居 数量 怎么 变 
化 ， 进 行 聚 合 操作 后 输出 的 维度 必须 是 一 致 的 ， 一 般 是 一 个 统一 长 度 的 同 量 。 


(2) 聚合 操作 对 聚合 市 点 具有 排列 不 变性 。 对 于 我 们 熟知 的 2D 图 像 数 据 与 1D 序 列 数 
据 ， 前 者 包含 痢 空 间 有 顺序 ， 后 者 则 包含 痢 时 序 顺 序 ， 但 图 数据 本 喘 是 一 种 无 序 的 数据 结 
构 ， 对 于 聚合 操作 而 言 ， 这 就 要 求 不 管 邻 牛 贡 氮 的 排列 顺序 如 何 ， 得 出 的 结束 总 是 一 样 
的 。 比 如 Agg (Vi, vo) =Agg (vy, vz) o 


当然 ， 从 模型 优化 的 层面 来 看 ， 访 种 聚合 操作 还 必须 是 可 导 的 。 有 了 上 述 性 质 的 你 
~~ 任意 输入 的 节点 集合 做 到 自 适 应 。 比 较 简单 的 符合 这 些 性 质 的 操作 算 
子 有 : 


(1) 平均 /加 和 Gmnean/sum) 聚合 算 子 。 逐 元 素 的 求 和 与 取 均 值 是 最 直接 的 一 种 聚合 
算 子 ， 这 类 操作 是 GCN 中 图 卷 积 操作 的 线性 近似 ， 下 面 给 出 了 求 和 的 聚合 公式 ，W 和 hb 是 
聚合 操作 的 学 习 参 数 : 

















Agg =0(SUM{Wh, + b, Vv, © N(v,)}) (74 ) 


(2) it (pooling) KSAT. BATES SCNNEWE CRETE RBG > AY ILE 
如 最 大 池 化 操作 ， 即 逐 元 素 取 最 大 值 : 


Age’ = MAX {o(Wh, + b), Vv, E N(v;)} (7.2) 


原则 上 我 们 可 以 套用 任意 一 种 DNN 模 型 对 邻居 进行 最 大 凶 化 操作 之 前 的 特征 变换 ， 
在 上 面 的 例子 中 ， 选 用 了 最 简单 的 单 层 全 连接 网 络 对 节 氮 的 特征 进行 加 工学 习 。 


7.1.3 GraphSAGES AWTS 
在 了 解 了 上 述 两 个 机 制 之 后 ， 我 们 来 看 看 GraphSAGE 实 现 小 批量 训练 形式 的 具体 过 


ÑE o 


输入 : 图 G=(V，E); 输入 特征 {x,，YvEB}; 层 数 K; 权重 矩阵 WK? , 


vkE{1，...，K}; 非 线 性 函数 o， 聚 合 操 作 Agg V, YkE{1, 0 K} 邻居 采样 函数 
N: v2, YkE{1, ..., K} 


WE: 所 有 节 扣 的 问 量 表示 zy,，vEB。 


GraphSAGE 小 批量 训练 的 过 程 


1 BPB; 

2 for k = K...1 do 

3 BED e p”. 

4 for u E B® do 

= BED ee BED U NA); 

6 end 

7 end 

8 BO e Y c B®. 

9 for k = K...1 do 

10 for u E B® do 

ii ni, e Age® (fab? vu eyo)) ; 
k) kra (k=1) 

12 h, co(W [h, J ]) ; 

13 hO e hi |b” | ; 

14 end 

15 end 


16 z, h, vu EB 


代码 清早 7-1 所 示 算 法 的 基本 思路 是 先 将 小 批 集合 B 内 的 中 心 市 点 聚合 操作 所 要 涉及 的 
k 阶 子 图 一 次 性 全 部 通 历 出 来 ， 然 后 在 这 些 节 点 上 进行 K 次 聚合 操作 的 迭代 式 计算 . 算法 


WY 2 1 ~ 747 Wie TI BRE RATE DA PER EAA STE: BRS BIR ES GTT A 
第 k 层 的 特征 ， 束 需要 采样 其 在 第 (k-1) JAN, Fae -D ERRENTE AARE 
其 第 〈k-2) FRAN, WER, EBERLE IATA Bie AI. mB Ne, ff 
FE ERE ER BY DA EA CEL, AS AY PA AST AE I fe Bo A 2 


代码 清单 7-1 的 第 9 一 15 行 是 第 二 步 一 聚合 操作 ， 其 核心 体现 在 第 11 一 13 行 的 3 个 公 却 
上 和 面 。 第 11 行 的 式 子 是 调用 聚合 操作 完成 对 每 个 市 点 邻 大 特征 的 整合 输出 ， 第 12 行 是 将 聚 
合 后 的 邻 拓 特 征 与 中 心 市 把 上 一 层 的 特征 进行 拼接 ， 然 后 壕 到 一 个 单 层 网 络 里 面 得 到 中 心 
市 扩 新 的 特征 癌 量 ， 第 13 行 对 节 扣 的 特征 癌 量 进行 归 一 化 处 理 ， 将 所 有 节 扣 的 癌 量 部 统一 
到 单位 尺度 上 。 对 这 3 行 操作 达 代 K 次 就 完成 了 对 B 内 所 有 中 心 市 扣 特 征 癌 量 的 提取 。 


值得 一 提 的 是 ，GraphSAGE 算 法 的 计算 过 程 完 全 没有 拉 普 拉 斯 矩阵 的 参与 ， 每 个 节 
点 的 特征 学 习 过 程 仅 仅 只 与 其 k 阶 邻居 相关 ， 而 不 需要 考虑 全 图 的 结构 信息 ， 这 样 的 方法 
适合 做 归纳 学 习 〈Inductive Learning) 。 归 纳 学 习 是 指 可 以 对 在 训练 阶段 见 不 到 的 数据 
《在 岁数 据 中 ， 可 以 指 新 的 节点 ， 也 可 以 指 新 的 图 ) 直接 进行 预测 而 不 需要 重新 训练 的 学 
习 方 法 ， 与 之 相对 的 是 转 导 学 习 (Transductive Learning) ， 指 所 有 的 数据 在 训练 阶段 都 
可 以 拿 到 ， 学 习 过 程 是 作用 在 这 个 固定 的 数据 上 的 ， 一 旦 数据 发 生 改 变 ， 需 要 重新 进行 学 
习 训 练 ， 典 型 的 比如 图 上 的 随机 游 走 算法 ， 一 旦 图 数据 发 生变 动 ， 所 有 节点 的 表示 学 习 都 
需要 重新 进行 。 对 于 GraphSAGE 得 法 而 言 ， 对 于 新 出 现 的 节点 数据 ， 只 需要 授 历 得 到 k 阶 
子 图 ， 吏 可 以 代入 模型 进行 相关 预测 。 这 种 特性 使 得 该 算法 具有 十 分 巨大 的 应 用 价值 。 


忆 结 一 下 ，GraphSAGE 对 空域 视角 下 的 GCN 作 了 一 次 解构 ， 提 出 了 几 种 邻居 的 聚合 
操作 算 子 ， 同 时 通过 米 样 倒挂， 大 大 提升 了 算法 的 工程 价值 。 在 引文 [5] 中 ， 通 过 该 方法 
完成 了 对 工业 级 大 规模 推荐 系统 的 应 用 ， 且 效果 十 分 显著 。 








7.2 GAT 


本 节 要 介绍 的 是 图 注意 力 网 络 (Graph Attention Network, GAT) ! 中 ， 它 通过 注意 力 
Nuit] (Attention Mechanism) 来 对 令 大 节点 做 聚合 操作 ， 实 现 了 对 不 同 邻 拓 权重 的 日 适应 
分 配 ， 从 而 大 大 提高 了 图 神经 网 络 模型 的 表达 能 





7.2.1 注意 力 机 制 


DNN 中 的 注意 力 机 制 是 受到 认 知 科学 中 人 类 对 信息 处 理 机 制 的 局 发 而 产生 的 。 由 于 
信息 处 理 能 力 的 局 限 ， 人 类 会 选择 性 地 关注 完整 信息 中 的 茶 一 部 分 ， 同 时 忽略 其 他 信息 。 
例如 ， 我 们 在 看 一 幅 夯 时 ， 退 津 会 把 视觉 关注 焦点 放 到 语义 信息 更 丰富 的 前 景物 体 上 ， 而 
减少 对 背景 信息 的 关注 ， 这 种 机 制 大 大 提高 了 人 类 对 信息 .的 处 理 效率 。 


如 图 7-2 所 示 ， 我 们 的 视觉 会 更 加 关注 画面 上 的 猫 ， 这 种 对 视觉 信息 集中 处 理 的 机 制 

在 视 澳 问答 场景 中 被 及 挥 得 淋 滴 尽 致 。 比 如 ， 如 末 要 确定 上 图 中 的 独 在 做 什么 ， 人 类 会 把 

0 
HIE 


sleeping | 0.5120 _ 
7.042% 





What's the cat doing? ———> 


图 7-2 ”注意 力 机 制 的 处 理 过 


可 见 ， 注 意 力 机 制 的 核心 在 于 对 给 定 信 息 进 行 权重 分 配 ， 权 草书 的 信息 意味 着 需要 系 
统 进 行 重 点 加 工 。 下 面 来 进一步 前 述 神经 网 络 中 注意 力 机 制 的 数学 表达 形式 〈 见 图 7- 
3) : 





图 7-3 ”注意 力 机 制 的 数学 表达 形式 


如 图 7-3 所 示 ，Source 是 需要 系统 处 理 的 信息 源 ，Query 代 表 某 种 条 件 或 者 先 验 信息 ， 
Attention Value 是 给 定 Query 信 息 的 条 件 下 ， 通 过 注意 力 机 制 从 Source 中 提取 得 到 的 信息 。 
一 般 Source 里 面包 含有 多 种 信息 ， 我 们 将 每 种 信息 通过 Key-Value 对 的 形式 表示 出 来 ， 注 
量力 机 制定 的 义 如 下 : 





Attention(Query, Source) = » similarity(Query, Key;) * Value; (7.3 ) 


AA (7.3) AQuery. Key. Value, Attention Value 在 实际 计算 时 均 可 以 是 同 量 形 
式 。similarity (Query，Keyi) 表示 Query 同 量 和 Key 同 量 的 相关 上 度 ， 最 直接 的 方法 是 可 以 
取 两 回 量 的 内 积 <Query，Key;>《 用 内 积 去 表示 两 个 回 量 的 相关 上 度 古 DNN 里 面 经 常用 到 的 
TE, WTA itll, DRA Bor, (RAS PEA, FAW ae) o cK 
(7.3) 清晰 地 表明 ， 注 意 力 机 制 焉 是 对 所 有 的 Value 信息 进行 加 权 求 和 ， 权 重 是 Query 与 
XM Keyk AKE 


RATEI AAKER L ERIE E Dd EY Ba SPOR a HE Sek 7 Lil] ce ES H A o 


自 完 ， 显 然 Query 应 该 是 代表 问题 句子 “小 猫 在 做 什么 ?”” 的 语义 同 量 表达 ， 一 般 我 们 
用 LSTM 模 型 进行 提取 。Query 表 示 整 张 图 像 在 经 过 CNN 模 型 后 得 到 的 特征 图 张 量 
HER 人 ， 了 于、W、C 分 别 代表 特征 图 的 高 度 、 宽 度 和 通道 数 。 通 过 前 面 所 学 的 知识 
我 们 知道 ， 人 类 的 视 党 系统 分 配给 图 里 不 同位 置 的 信息 的 注意 力 是 不 同 的 。 所 以 很 目 然 

/ G 

地 ， 我 们 将 特征 图 H 转 化 成 He RC，L=H'xW' 表 示 空 间 位 置 的 长 度 ， 人 2%: 5 人 表示 特征 
图 上 霖 个 空间 位 置 的 癌 量 表达 。 在 这 个 例子 中 ， 由 于 没有 明显 的 Key、Value 之 列 ， 所 以 
我 们 令 Key = Value = 人， 则 在 给 定 Query 问 题 的 条 件 下 ， 注 意 力 机 制 下 的 输出 为 : 


L 
Attention(Query, Source) = > <Query, H!> ° H!. (7.4) 


j 


通过 上 述 例 子 ， 我 们 可 以 很 清晰 地 看 到 DNN 是 如 何 利 用 注意 力 机 制 在 视觉 问答 的 任 
务 中 从 图 里 更 加 有 效 地 抽取 出 内 容 信息 的 。 事 实 上 ， 在 DNN 中 ， 注 意 力 机 制 已 经 被 看 作 
一 种 更 上 共 表 达 力 的 信息 融合 手段 ， 其 在 计算 机 视觉 与 目 然 语言 处 理 中 得 到 了 广泛 的 应 用 ， 
SEA oe AS. ES. Te Se RA. LAME. NLA Se, HER ALI fe Bl 
TRAE HY DL SS ACR 














7.2.2 ”图 注意 力 层 


本 节 我 们 来 介绍 如 何 将 注意 力 机 制 应 用 到 图 神经 网 络 聚 合 邻居 的 操作 中 ， 根 据 注 意 力 
机 制 里 面 的 三 要 素 : Query. Source. Attention Value， 我 们 可 以 很 自然 地 将 Query 设 置 为 
当前 中 心 贡 点 的 特征 回 量 ， 将 Source 设 置 为 所 有 邻 牛 的 特征 同 量 ， 将 Attention Value 设置 
为 中 心 节 点 经 过 聚合 操作 后 的 新 的 特征 问 量 。 





` >) 、 ae. 十 上 hope y E= > a !) 
正式 的 定义 如 下 ; 设 图 中 任意 节点 v 在 第 ] 层 所 对 应 的 特征 向 量 为 所 , h ER, dO ze 
示 节 点 的 特征 长 度 ， 经 过 一 个 以 注意 力 机 制 为 核心 的 聚合 操作 之 后 ， 输 出 的 是 每 个 节点 新 
ait) 1+1) z 本 a e i 
HIE ER ，d ”表示 输出 的 特征 向 量 的 长 度 。 我 们 将 这 个 聚合 操作 称 为 图 
注意 力 层 (Graph Attention Layer, GAL) ( 见 图 7-4) 。 





图 7-4 Ate ne! 


假设 中 心 节点 为 w， 我 们 设 邻居 节点 w 到 w 的 权重 系数 为 : 
e, = a(Wh,, Wh) (7.5) 
WE R" ”是 该 层 节点 特征 变换 的 权重 参数 。a O 是 计算 两 个 节点 相关 度 的 函 
数 ， 原 则 上 ， 这 里 我 们 可 以 计算 图 中 任意 一 个 节点 到 节点 w 的 权重 系数 ， 但 是 为 了 简化 计 
算 ， 我 们 将 其 限制 在 一 阶 邻居 内 ， 需 要 注意 的 是 在 GAT 中 ， 作 者 将 每 个 节点 也 视 作 自己 
的 邻居 。 关 于 a 的 选择 ， 前 面 我 们 介绍 了 可 以 用 向 量 的 内 积 来 定义 一 种 无 参 形式 的 相关 度 
计算 <Whi，Wh>， 也 可 以 定义 成 一 种 带 参 的 神经 网 络 层 ， 只 要 满足 4R 








xR 一 及 
即 输出 一 个 标量 值 表示 二 者 的 相关 度 即 可 。 此 处 作者 选择 了 一 个 单 层 的 全 连接 层 : 


e; = Leaky ReLU(a [Wh|||Wh)]) (7.6 ) 





其 权重 参数 4 © Re” ,激活 函数 设计 为 LeakyReLU， 为 了 更 好 地 分 配 权 重 ， 我 们 需 
要 将 与 所 有 邻居 计算 出 的 相关 度 进 行 统一 的 归 一 化 处 理 ， 有 基体 形式 为 softmax 归 一 化 : 


exp(é;;) 
> vi EN (v;) eXP(ex ) 


a 是 权重 系数 ， 通 过 式 (7.7) 的 处 理 ， 保 证 了 所 有 邻居 的 权重 系数 加 和 为 1。 图 7-4 上 所 
示 为 计算 过 程 的 示意 图 ， 式 (7.8) 给 出 了 完整 的 权重 系数 的 计算 公式 : 


(7.7) 


a,, = soft max (e.) = 
di 下 


exp(LeakyReLU(a [Wh, | Wh; })) (T8) 
a. R, A eS ee, E A s-i > 
>. v EÑ (v) exp(Leaky Re LU(a’ [Wh, | Wh, D) 


一 旦 完成 上 述 权重 系数 的 计算 ， 按 照 注 意 力 机 制 加 权 求 和 的 思路 ， 节 点 v 新 的 特征 向 
为 ; 


ral 


h'=o >. æ, Wh, (7.9 ) 


ps eN (v;) 


[1] VeličkovićP, Cucurull G, Casanova A, et al.Graph attention networks[J].arXiv preprint 
arXiv: 1710.10903, 2017. 


7.2.3 多头 图 注意 力 层 


为 了 更 进一步 提升 注意 力 层 的 表达 能 力 ， 可 以 加 入 多 关注 意 力 机 制 (multi-head 
attention) ， 也 即 对 上 式 调 用 K 组 相互 独立 的 注意 力 机 制 ， 然 后 将 输出 结果 拼接 在 一 起 : 


有 = |i | >. wen, (7.10) 


vjeN (Vv; ) 


其 中 | 表示 拼 接 操作 ，% 是 第 k 组 注意 力 机 制 计算 出 的 权重 系数 ，W 0 是 对 应 的 学 
习 参 数 。 当 然 为 了 减少 输出 的 特征 向 量 的 维 庆 ， 也 可 以 将 拼接 操作 蔡 换 成 平均 操作 : 


增加 多 组 相互 独立 的 注意 力 机 制 ， 使 得 多 头 注意 力 机 制 能 够 将 注意 为 的 分 配 放 到 中 心 
市 反 与 分 大 市 反之 间 多 处 相关 的 特征 上 ， 可 使 得 系统 的 学 习 能 力 更 加 强大 。 多 涉 注意 力 机 
制 的 计算 流程 如 图 7-5 所 示 ， 其 中 不 同 的 闫 色 表 示 不 同 注意 力 计算 过 程 ， 图 中 K=3， 计 算 
完 后 ， 将 上 述 结 末 进行 拼接 或 者 平均 操作 。 





concat/avg Cm 





图 7-5 ”多 头 注意 力 机 制 示 意图 中 


图 注意 力 层 比 GCN 里 面 的 图 卷 积 层 多 了 一 个 自 适应 的 边 权 重 系 数 的 维度 。 回 到 GCN 
的 核心 过 程 人 mw 全， 我 们 可 以 将 人 mm 分 拆 成 两 个 部 分 ， 引 入 一 个 权重 矩阵 ME RNN， 然 后 


核心 过 程 就 变 成 了 (4 忆 MAW, stares), EER RTE GCNS TOT 
以 学 习 的 新 的 维度 _ 边 上 的 权重 系数 。 在 之 前 的 模型 中 ， 这 个 权重 系数 矩阵 是 图 的 拉 普 拉 
斯 矩阵 ， 而 图 注意 力 模型 可 以 对 其 进行 自 适 应 的 学 习 ， 并 且 通 过 运用 注意 力 机 制 ， 避 免 引 
入 过 多 的 学 习 参 数 。 这 使 得 图 注意 力 模型 具有 非常 高 效 的 表达 能 力 。 这 种 机 制 从 图 信号 处 
理 的 角度 来 看 ， 相 当 于 学 习 出 一 个 自 适 应 的 图 位 移 算 子 ， 对 应 一 种 自 适 应 的 滤波 效应 。 当 
然 ， 和 GraphSAGE 模 型 “ 样 ， 图 注意 力 模型 的 计算 也 保留 了 非常 完整 的 局 部 性 ,一样 能 
进行 归纳 学 习 。 





[1] VelickovicP, Cucurull G, Casanova A, et al.Graph attention networks[J].arXiv preprint 
arXiv: 1710.10903, 2017. 


7.3 R-GCN 


FEZ BUST 2A EN ATA GNNIN BOE, A a He ETA RAR AE, 4 
较 于 同 构 图 ， 现 实生 活 中 的 图 数据 往往 是 异 构 的 ， 即 图 里 面 存在 人 不止 一 种 类 型 的 关系 。 本 
市 要 介绍 的 R-GCN 就 是 将 图 卷 积 神经 网 络 拓 展 到 这 种 场景 的 图 数据 中 去 。 


7.3.1 ”知识 图 谱 


一 种 最 典型 的 包含 多 种 关系 的 图 数据 就 是 知识 图 谱 (Knowledge Graph)。 知 识 图 谱 
是 一 种 规模 非常 庞大 的 语义 网 络 ， 其 主要 作用 是 描述 通用 或 专用 场景 下 实体 间 的 关联 天 
系 ， 主 要 应 用 场景 为 搜索 引擎、 语 首 助手 、 和 六 能 问答 等 。 


举 一 个 简单 的 例子 ， 当 我 们 在 Google 上 搜索 “ 欧 拉 ? 时 ， 结 束 返 回 页 的 右边 栏 会 出 现 一 
个 卡片 。 如 图 7-6 所 示 ， 里 面 除 了 有 对 数学 冢 欧 拉 的 成 束 介 绍 外 ， 还 分 门 列 类 地 列 出 了 一 
些 基本 情况 : 生 浴 年、 家庭 、 教 育 等 信息 。 搜 索引 擎 能 够 以 这 么 简单 明了 的 形式 列 出 人 物 
的 相关 知识 ， 背 后 离 个 开 知 识 图 详 拉 术 的 支持 。 图 7-6 的 右 图 将 卡 厂 中 的 一 些 信息 以 知识 
图 谱 的 形式 展现 了 出 来 。 


来 昂 哈 德 : 欧 拉 < 


数学 家 


莱 昂 哈 德 - 欧 拉 是 一 位 瑞士 数学 家 和 物理 学 家 ， 近 代数 学 先驱 之 一 ， 他 一 生 
大 部 分 时 间 在 俄国 和 普鲁士 度 过 。 欧 拉 在 数学 的 多 个 领域 ， 包 括 微 积分 和 
图 论 都 做 出 过 重大 发 现 。 他 引进 的 许多 数学 术语 和 书写 格式 ， 例 如 函数 的 
记 法 "f(x)"， 一 直 沿 用 至 今 。 此 外 ， 他 还 在 力学 、 光 学 和 天 文学 等 学 科 有 突 
出 的 贡献 。 维基 百科 


SF: 1707 年 4 月 15 日， 瑞士 巴塞 尔 
逝世 于 : 1783 年 9 月 18 日 ， 俄 罗斯 圣彼得堡 
子女 : 约翰 - 欧 拉 ， 克里斯托弗 - 欧 拉 ， Biss RM, 卡尔 : 欧 拉 ， 


Helene Euler 


教育 背景 : 巴塞 尔 大 学 (1720 年 -1723 年 )， 巴塞 尔 大 学 ， 圣彼得堡 国立 
大 学 

配偶 : FAS LEZ EZR (结婚 时 间 : 1776 年 -1783 年 )， 卡 塔 琳 娜 . 
BSR (结婚 时 间 : 1734 年 -1773 F) 





图 7-6 ”Google 搜 索 “ 欧 拉 ” 返 回 的 结果 由 


知识 图 谐 的 构建 所 依赖 的 核心 技术 是 信息 抽取 与 知识 构建 ， 该 项 技术 绅 在 从 大 规模 非 
结构 化 的 目 然 语 言 文本 中 抽取 出 结构 化 信息 ， 该 技术 决定 了 知识 图 谐 可 持续 扩 增 的 能 
而 对 于 一 个 已 有 的 知识 图 谱 ， 有 的 时 候 还 需要 基于 现存 的 实体 间 的 关系 ， 通 过 推理 学 习 得 
到 实体 间 新 的 关系 并 将 其 补 元 进 知识 图 详 里 面 去 。 作 为 图 数据 的 一 种 通用 学 习 手 段 ， 将 
GNN 应 用 a 到 该 任务 上 的 最 大 的 问题 在 于 如 何 短 量 实体 间 的 各 种 不 同 关系 ， 而 且 往 往 这 些 
RRA EFM LE, REIME EN RUSTE Fe et o 


[1] 图 片 来 源 : https://zh.wikipedia.org/wiki/3E Eh IA 72 - BRAT - 


7.3.2 R-GCN 





R-GCN 基于 GCN 的 聚合 邻居 的 操作 ， 又 增加 了 一 个 聚合 关系 的 维度 ， 使 得 节点 的 
聚合 操作 变 成 一 个 双重 形 合 的 过 程 ， 其 核心 公 陈 如 下 : 


hm =o F Y WW + WOM? (7.11) 


reR y, jen,” ) Ci, 


R 表 示 图 里 所 有 的 关系 集合 ，" 表示 与 节点 v 具 有 r 关 系 的 邻居 集合 。c，, 用 来 做 归 


一 化 ， 比 如 取 Cw Nw |。W 是 具有 r 关 系 的 邻居 对 应 的 权重 参数 ，W 是 节点 自身 对 应 的 
权重 参数 。 


由 于 GCN 考 虑 的 是 同 构 图 建 模 ， 节 点 之 间 只 存在 一 种 关系 ， 因 此 GCN 只 需要 一 组 权 
重 参 数 来 对 节点 的 特征 进行 变换 。R-GCN 考 虑 的 是 异 构图 建 模 ， 在 处 理 邻 大 的 时 候 ， 考 
量 关 系 的 因素 对 邻居 进行 分 类 操作 : 对 于 每 一 种 关系 的 邻 大 引入 不 同 的 权重 参数 ， 分 别 对 
属于 同一 关系 类 型 的 邻居 聚合 之 后 ， 再 进行 一 次 总 的 聚合 ， 如 图 7-7 所 示 。 


图 7-7 所 示 为 R-GCN 聚 合 邻 大 操作 的 示意 图 ， 我 们 可 以 清晰 地 看 到 这 是 一 个 两 层 的 聚 
合 操 作 :， 先 对 同 种 关系 的 邻 大 进行 单独 聚合 ， 这 里 对 于 每 一 种 关系 ， 也 同时 考虑 了 关系 的 
正 反 方向 ， 同 时 对 于 目 身 加 入 了 目 连接 的 关系 ， 在 将 上 述 所 有 不 同 关 系 的 邻 届 进行 聚合 之 
后 ， 册 进行 一 次 总 的 聚合 。 
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之 前 我 们 提 到 ， 一 个 典型 的 多 关系 图 数据 -知识 图 谐 往往 包含 看 大 量 的 关系 。 如 末 我 
们 为 每 一 种 关系 都 设计 一 组 权重 ， 那 么 单 层 R-GCN 需 要 学 习 的 参数 量 将 十 分 庞大 ， 同 
时 ， 由 于 不 同 关 系 的 节点 数量 是 不 一 样 的 ， 对 于 一 些 不 常见 的 天 系 而 言 ， 其 权重 参数 对 应 
的 和 学习 数据 非常 少 ， 这 大 大 增加 了 过 拟 合 的 风险 。 为 了 避免 上 述 情况 用 生 ，R-GCN 提 出 
了 对 W 进行 基 分 解 basic decomposition) 的 方案 ， 即 : 


B 
W, =) aV, (7.12) 


b=! 


我 们 称 ER “” 为 基 ，an 是 Wi 在 Vb 上 的 分 解 系数 ，B 是 超 参数 ， 控 制 着 Vb 的 个 
数 ，Vb、a 是 取代 W, 需 要 学 习 的 参数 。 通 过 上 式 的 基 分 解 ， 我 们 将 W, 变 成 了 一 组 基 的 线 
性 加 和 ， 且 对 于 |R| 组 W,， 可 以 反复 利用 |B| 组 基 进 行 线性 加 和 表示 。 这 样 做 的 好 处 在 于 ， 
Bxd“' xd” +|R|x B 
首先 ， 将 需要 学 习 的 参数 减 至 原来 的 “lx4 xd) ， 在 实际 训练 的 时 候 ， 我 们 可 以 
设置 一 个 较 小 的 B 值 ， 使 得 B<<min (R, d “HP xd D>) ， 其 次 ， 基 Vi 的 优化 是 所 有 的 党 
见 或 者 不 常见 关系 所 共享 的 ， 这 种 共享 的 优化 参数 可 以 有 效 防止 非常 见 关 系数 据 上 过 拟 合 
现象 的 出 现 。 基 分 解 是 一 种 非常 常见 的 数据 变换 的 表示 方式 (图 信号 的 侍 里 叶 变 换 中 也 体 
现 了 这 种 思想 ) ， 在 机 器 学 习 中 ， 其 作为 一 种 重要 的 数据 处 理 技巧 得 到 了 广泛 的 应 用 。 


[1] Schlichtkrull M, Kipf T N, Bloem P, et al.Modeling relational data with graph 


convolutional networks[C]//European Semantic Web Conference.Springer, Cham, 2018: 
593-607. 


7.4 GNN 的 通用 框架 


在 介绍 完 GNN 的 几 种 变 体 后 ， 本 节 我 们 来 看 看 GNN 的 通用 框 染 。 所 谓 通 用 框架 ， 是 
对 多 种 变 体 GNN 网 络 结构 的 一 般 化 总 结 ， 也 是 GNN 编 程 的 通用 范式 ， 研 究 它 能 够 帮助 我 
们 更 加 清晰 地 横向 对 比 各 类 GNN 模 型 ， 同 时 也 为 GNN 模 型 的 灵活 拓展 提供 了 方向 。 


下 面 我 们 介绍 3 类 通用 框架 : 消息 传播 神经 网 络 〈Message Passing Neural Network, 
MPNN) 、 非 局 部 神经 网 络 (Non-Local Neural Network, NLNN) ~ KIR% (Graph 
Network, GN) 。MPNN 从 聚合 与 更 新 的 角度 归纳 总 结 了 GNN 模 型 的 几 种 变 体 ，NLNN 筷 
对 基于 注意 力 机 制 的 GNN 模 型 的 一 般 化 忌 结 ， 在 这 两 种 框架 之 上 ，GN 做 到 了 对 GNN 模 型 
更 全 面 化 的 总 结 。 











7.4.1 MPNN 


在 引文 [8] 中 提出 了 MPNN， 通 过 消 明 传播 机 制 对 多 种 GNN 模 型 做 出 了 一 般 化 总 结 。 
其 基本 思路 为 : 节点 的 表示 同 量 都 是 通过 消 居 函数 M (Message) 和 更 新 图 数 U (update) 
进行 K 轮 消息 传播 机 制 的 欠 代 后 得 到 的 ， 消 息 传 播 的 过 程 如 下 : 


m= F Mn, h,e) (7.13 ) 


V; EN (v;) 
Wet) =the” mat) ( 714 ) 
Hee anid<v,, v> EAA, KAN RE TES Na, ACA 
模型 中 层 的 概念 等 价 。 
消息 函数 的 输入 由 边 本 映 以 及 两 侧 节 点 构成 ， 为 了 方便 摘 述 ， 我 们 们 用 


RDF (Resource Description Framework) 三 元 组 来 表示 这 样 的 输入 : 


Soure Et, Object 


Soure 表 示 源 节点 ， Object 表示 目标 节点 ，Predict 表 示 源 和 点 到 目标 节点 的 关系 。 这 种 
描述 框架 非常 目 然 地 对 应 了 汉语 中 的 主 谓 宾 三 元 组 短 句 ， 如 “GNN 属 于 Deep Learning”, 
束 摘 述 了 “GNN” 到 “Deep Learning” PWK, HRDF W F: 


GNN "FE, Deep Learning 


FYE EP YEAR, KEHRA RDE HA HAH 晨 ， 之 后 这 些 消 恩 部 会 沿 看 
边 的 方 癌 传播 到 RDF 的 两 侧 市 点 处 进行 聚合 ， 聚 合 后 的 消 恩 会 在 之 后 的 更 新 图 数 的 作用 下 
对 节点 特征 进行 更 新 。 图 7-8 所 示 为 MPNN 计 算 的 示意 图 : 


~ 


a M : 消息 函数 mr h® U: ERKA h“ 





图 7-8 MPNN 计 算 示 意图 


需要 特别 说 明 的 是 ， 上 面 的 MPNN 并 没有 对 边 的 表示 向 量 进行 迭代 更 新 ， 该 文 作 者 指 
出 ， 如 果 有 必要 的 话 ， 比 如 在 某 些 场景 下 的 图 数据 中 边 具 有 显 式 的 重要 意义 ， 可 以 与 节点 
一 样 ， 对 边 的 表示 向 量 始终 维护 一 个 状态 变量 ， 具 体 做 法 可 以 参考 下 面 GN 的 做 法 。 

MPNN 的 核心 在 于 消息 函数 和 更 新 函数 ， 原 则 上 可 以 把 它们 设计 成 任意 一 种 DNN 模 
型 。 接 下 来 我 们 看 看 在 消息 传播 的 视角 下 ， 该 如 何 确定 GCN、R-GCN、GraphSAGE、 
Interaction Network 中 等 GNN 模 型 中 的 消息 函数 与 更 新 函数 ， 如 表 7-1 所 示 : 


表 7-1 BRAD HP AYE Joh R a Sy BET EK BL 


模型 消息 函数 更 新 函数 
GCN Mh Wn) > Ll pe U(m'*”) = Gm) 





R-GCN M(H r) =W Oh UO a) =o +W h”) 


ee 2 M(h P) = Agglh v, ENO) | UO mi?) =o WO [mt RPD 


Interaction NN 模型 另 一 个 NN 模型 


由 于 MPNN 的 消息 函数 是 作用 在 RDF 三 元 组 上 的 ， 因 此 其 对 各 种 类 型 的 图 数据 都 上 共有 
一 定 的 适应 性 。 下 面 给 出 对 于 常见 的 同 构图 、 卉 构图 、 属 性 图 等 类 型 的 图 数据 用 MPNN 框 
涤 进 行 处 理 的 方法 ， 处 理 的 方式 不 限于 此 ， 读 者 可 目 行 考虑 : 





(1) 同 构图 : MAAS esr A ABE, WE APRN EA AIA. APPR 
图 数据 ， 可 以 将 边 的 正 有 反方 回 看 成 两 种 关系， 信用 R-GCN 的 思路 进行 处 理 ， 同 时 对 边 上 
的 权 午 可 以 考虑 进 邻 接 窍 阵 中 当 作 归 一 化 项 一 并 处 理 。 


(2) 异 构 图 : 可 以 考虑 R-GCN 方 式 ， 男 外 如 果 关 系 不 多 ， 可 以 将 关系 编 妈 成 one-hot 
问 量 当 作 边 上 的 特征 进行 处 理 。 


(3) 属性 图 : 之 前 我 们 介绍 了 属性 图 是 很 一 种 应 用 很 广泛 的 图 数据 的 表达 形式 。 在 
属性 图 中 ， 我 们 需要 考虑 的 因素 有 市 点 的 寞 构 以 及 边 属性 。 对 于 前 者 ， 如 来 我 们 妃 求 工程 
上 的 人 简化 处 理 ， 可 以 在 调用 MPNN 之 前 ， 对 不 同类 型 的 节操 分 别 送 进 变换 函数 这些 函 数 
可 以 是 任意 的 NN 模型 ) 里 面 ， 将 卉 构 的 市 点 变换 到 同一 维度 的 同一 特征 空间 里 ， 之 后 当 
作 节 操 同 构 的 图 处 理 。 对 于 后 者 ， 可 以 参考 关系 图 的 处 理 方 式 ， 这 里 如 果 边 上 其 有 一 些 属 
性 信息 的 话 ， 按 照 消 因 函数 的 机 制 ， 和 需要 对 其 进行 特征 编码 (比如 类 别 型 属性 特征 进行 
one-hot4n fk 4 embedding4if4) 。 








7.4.2 NLNN 





非 局 部 神经 网 络 (NLNN) 0 是 对 注意 力 机 制 的 一 般 化 总 结 ， 上 文 介 绍 的 GAT 就 可 
以 看 作 是 它 的 一 个 特例 。NLNN 通 过 non-local 操 作 将 任意 位 置 的 输出 响应 计算 为 所 有 位 置 
特征 的 加 权 和 。 位 置 可 以 是 图 像 中 的 空间 坐标 ， 也 可 以 是 序列 数据 中 的 时 间 华 标 ， 在 图 数 
据 中 ， 位 置 可 以 直接 以 节点 代替 。 


通用 的 non-local 操 作 的 定义 如 下 ; 


a Daf hh, )g(h ;) (7.15 ) 





al a 

这 里 的 是 输出 位 置 的 索引 ，j 是 枚 举 所 有 可 能 位 置 的 索引 。f Ch» h) 是 i 和 j 位 置 上 元 
素 之 间 的 相关 度 函 数 ，g h 表示 对 输入 hj 进行 变换 的 变换 函数 ， 因 子 cw 用 于 归 一 化 结 
R, 

同 MPNN 一 样 ，NLNN 的 核心 也 在 两 个 函数 上 : f 和 g。 为 了 简便， 我 们 可 以 使 用 线性 
变换 作为 函数 g: g (hi) =Woh;， 这 里 Wp 是 需要 学 习 的 权重 参数 。 下 面 我 们 重点 列 出 函数 ff 


1. 内 积 
纯 数 f 的 最 简单 的 一 种 形式 束 是 内 积 : 
Kh, h) = h) h (h) (7.16 ) 


这 里 6 Chi) =Wehi，9 Ch) =Woh;， 分 列表 示 对 输入 的 一 种 线性 变换 ，C Ch) =lbjl。 
2. 全 连接 
使 用 输出 为 一 维 标 量 的 全 连接 层 定义 f: 


fh, h) = o(w;[0(h,)|| ¢ (h)]) (7.17) 
这 里 wi 是 将 同 量 投影 到 标量 的 权重 参数 ，C Ch) =h 
3. 高 斯 函数 
使 用 扩展 形 陈 的 高 斯 函数 : 


2(h) Øh) \ 
RE B= re (7.18) 
ge 2) | ones TORRET AZE, e 


hi = softmax (Oh) 少 ()8()。 如 果 将 自然 对 数 e 的 宕 指数 项 改 成 全 连接 的 形式 ， 就 成 了 
GAT 中 的 做 法 。 


7.4.3 GN 


Graph Network!!! 4#44%-MPNNA#AINLNN, XtGNN({HCHE SERA. KERA 


Networkizit S32 KAA 3S KAKA p, AAU: 


e'i = h (ey, h,, h,, u) 


(7.19 ) 
e.=p "(fe Vv, E N(v)] h'i = 6", h, u) (7.20 ) 
e'=p “(fe Ve’ E EJ) h =p" “((h', Vv, EV) w= p"(@,h', u) (7.21) 


GN 的 计算 过 程 如 图 7-9 所 示 ， 贤 色 表示 正在 被 更 新 的 元 系 ， 黑 色 表示 正在 参与 更 新 计 
算 的 元 素 。GN 的 更 新 思路 是 非 第 目 然 的 ， 由 后 更 新 边 ， 边 聚合 更 新 点 ， 所 聚合 与 边 加 合 
更 新 图 ， 当 然 每 个 元 系 在 更 新 的 时 候 还 需要 郊 虚 目 喘 上 一 轮 的 状态 。 需 要 注音 的 是 ， 上 述 
的 更 新 步 又 并 不 古 一 成 不 变 的 ， 也 可 以 从 全 局 出 友人 a 到 每 个 市 上 ， 骨 到 每 条 边 。 为 外 ， 全 图 
状态 u 的 初始 值 ， 可 以 看 成 是 图 的 和 种 固有 属性 或 者 移 验 知识 的 编码 癌 量 。 如 于 除去 这 个 
全 图 状态 值 的 维护 ，GN 束 退化 成 了 一 个 维护 边 状态 的 MPNN。 











a) 边 更 新 


b) 节点 更 新 。) 全 局 更 新 
图 7-9_GN 的 计算 过 程 出 


GN 对 图 里 面 的 节操 、 边 、 全 图 部 维护 了 相应 的 状态 ， 这 三 者 可 以 分 别 对 应 上 节 扩 层 
面 的 任务 、 边 层面 的 任务 、 全 图 层面 的 任务 。 当 然 在 实际 场景 中 ， 可 以 依据 图 数据 以 及 相 
关 任 务 的 实际 情况 ， 对 GN 进 行 相 应 的 简化 处 理 。 


[1] Battaglia PW, Hamrick J B, Bapst V, et al.Relational inductive biases, deep learning, 
and graph networks|[J].arXiv preprint arXiv: 1806.01261, 2018. 


7.5 ”GraphSAGE 实 战 


本 市 我 们 通过 代码 来 介绍 GraphSAGE 以 加 深 读 痢 对 相关 知识 的 理解 。 如 7.1 节 所 介绍 
的 ，GraphSAGE 包 括 两 个 方面 ， 一 是 对 于 邻 后 的 采样 ， 二 是 对 邻 盾 的 聚合 操作 。 


首先 来 看 下 对 邻 后 的 采样 方法 ， 为 了 实现 更 高 效 地 采样 ， 可 以 将 和 点 及 其 邻 后 存放 在 
一 起 ， 即 维护 一 个 厄 点 与 其 邻 拓 对 应 关系 的 表 。 我 们 可 以 通过 两 个 疯 数 sampling 和 
multihop_sampling 来 实现 采样 的 具体 操作 。 其 中 Sampling 是 进行 一 阶 采样 ， 根 据 源 节点 采 
样 指定 数量 的 邻 大 节点 ，multihop_sampling 则 是 利用 sampling 实 现 多 阶 灯 样 的 功能 。 如 代 
人 码 清 时 7-1 所 示 : 


代码 清单 7-1 对 邻 大 节操 进行 多 阶 米 样 





def sampling(src_nodes, sample num, neighbor_table): 
"" "根据 源 节 点 采样 指定 数量 的 邻居 节点 ， 注 意 使 用 的 是 有 放 回 的 采样 ; 
某 个 节点 的 邻居 市 点 数量 少 于 采样 数量 时 ， 采 样 结果 出 现 重 复 的 市 点 





Arguments: 
src_nodes {list, ndarray} -- 源 节 点 列表 
sample_num {int} -- 需要 采样 的 节点 数 


neighbor_table {dict} -- 节点 到 其 邻居 节点 的 映射 表 


Returns: 
ndarray -- 采样 结 末 构成 的 列表 
results = [] 
for sid in src_nodes: 
# 从 市 点 的 邻居 中 进行 有 放 回 的 采样 
res = np.random.choice(neighbor_table[sid], size=(sample_num, )) 
results.append(res) 
return np.asarray(results).flatten() 


def multihop_sampling(src_nodes, sample_nums, neighbor_table): 


""" 根 据 源 节点 进行 多 阶 采 样 


Arguments: 
src_nodes {list, np.ndarray} -- 源 节 点 Id 
sample_nums {list of int} -- - 阶 需要 采样 的 个 数 








neighbor_table {dict} -- 节点 到 其 邻居 节点 的 映射 


Returns: 
[list of ndarray] -- 每 一 阶 采样 的 结果 

sampling_result = [src_nodes] 

for k, hopk_num in enumerate(sample_nums): 
hopk_result = sampling(sampling_result[k], hopk_num, neighbor_table) 
sampling_result.append(hopk_result ) 

return sampling_result 
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进行 聚合 操作 更 新 特征 。 


下 面 根据 式 (7.1) 一 式 (7.2) 来 实现 邻居 的 聚合 操作 ， 计 算 的 过 程 定义 在 forward 也 | 
数 中 ， 输 入 neighbor_feature 表 示 和 需要 聚合 的 邻 大 节点 的 特征 ， 它 的 维度 为 
NsicxNieighborXxDin， 其 中 Ny 表示 源 市 后 的 数量 ，Nieighbor 表 未 祁 大 节点 的 数量 ，DDii 表 示 输 
入 的 特征 维度 。 将 这 些 邻 大 节点 的 特征 经 过 一 个 线性 变换 得 到 隐 层 特征 ， 这 样 就 可 以 沿 着 





SITAR RETRAERYTE I, GKM, JAAR AIA, PE BIAEREAN,,xD, 的 输出 。 如 代 
fg HA7-2AT AS: 


代码 清单 7-2 ”邻居 聚合 





class NeighborAggregator(nn.Module): 
def _ init__(self, input_dim, output_dim, 
use_bias=False, aggr_method="mean"): 
"OA BIR AT SH 


Arguments: 
input_dim {int} -- 输入 特征 的 维度 
output_dim {int} -- 输出 特征 的 维度 


Keyword Arguments: 
use_bias {bool} -- 是 奋 使 用 偏 置 (default: {False}) 
aggr_method {string} -- 聚合 方式 (default: {mean}) 
super(NeighborAggregator, self).__init__() 
self.input_dim = input_dim 
self.output_dim = output_dim 
self.use_bias = use_bias 
self.aggr_method = aggr_method 
self.weight = nn.Parameter(torch.Tensor(input_dim, output_dim) ) 
if self.use_bias: 
self.bias = nn.Parameter(torch.Tensor(self.output_dim) ) 
self.reset_parameters() 


def reset_parameters(self): 
init.kaiming_uniform_(self.weight ) 
if self.use_bias: 
init.zeros_(self.bias) 


def forward(self, neighbor_feature): 


if self.aggr_method == "mean": 

aggr_neighbor = neighbor_feature.mean(dim=1) 
elif self.aggr_method == "sum": 

aggr_neighbor = neighbor_feature.sum(dim=1) 
elif self.aggr_method == "max": 

aggr_neighbor = neighbor_feature.max(dim=1) 
else: 


raise ValueError("Unknown aggr type, expected sum, max, or mean, but got {}" 
.format(self.aggr_method) ) 


neighbor_hidden = torch.matmul(aggr_neighbor, self.weight ) 
if self.use_bias: 
neighbor_hidden += self.bias 


return neighbor_hidden 





基于 邻居 聚合 的 结果 对 中 心 节 扣 的 特征 进行 更 新 。 喝 新 的 方式 是 将 邻 大 节 扣 聚合 的 特 
征 与 经 过 线性 变换 的 中 心 节 点 的 特征 进行 求 和 或 者 级 联 ， 再 经 过 一 个 激活 函数 ， 得 到 更 新 
后 的 特征 。 如 代码 清单 7-3 所 示 : 


代码 清单 7-3 SageGCN 定 义 





class SageGCN(nn.Module): 
def _ init__(self, input_dim, hidden_din, 
activation=F.relu, 
aggr_neighbor_method="mean", 


def 


def 


aggr_hidden_method="sum" ): 
super(SageGCN, self).__init__() 
assert aggr_neighbor_method in ["mean", "sum", "max" | 
assert aggr_hidden_method in ["sum", "concat" ] 
self.aggr_neighbor = aggr_neighbor_method 
self.aggr_hidden = aggr_hidden_method 
self.activation activation 
self.aggregator NeighborAggregator(input_dim, hidden_dim, 
aggr_method=aggr_neighbor_method ) 
self.weight = nn.Parameter(torch.Tensor(input_dim, hidden_dim) ) 


reset_parameters(self): 
init.kaiming_uniform_(self.weight ) 


forward(self, src_node_features, neighbor_node_features): 
neighbor_hidden = self.aggregator(neighbor_node_features) 
self_hidden = torch.matmul(src_node_features, self.weight ) 


if self.aggr_hidden == "sum": 

hidden = self_hidden + neighbor_hidden 
elif self.aggr_hidden == "concat": 

hidden = torch.cat([self_hidden, neighbor_hidden], dim=1) 
else: 


raise ValueError("Expected sum or concat, got {}" 
.format(self.aggr_hidden) ) 
if self.activation: 
return self.activation(hidden) 
else: 
return hidden 
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么 计算 中 心 市 点 的 输出 可 以 通过 以 下 代码 实现 。 其 中 前 同 传 播 时 传 入 的 参数 
node_features_list 是 一 个 列表 ， 其 中 第 0 个 元 系 表 示 源 节点 的 特征 ， 其 后 的 元 系 表 示 每 阶 米 
样 得 到 的 节点 特征 。 如 代码 清单 7-4 所 示 : 


代码 清单 7-4 ”GraphSage 模 型 示例 





Class GraphSage(nn.Module): 


def 


def 


__ init__(self, input_dim, hidden_dim=[64, 64], 
num_neighbors_list=[10, 10]): 
super(GraphSage, self). _init_ () 
self.input_dim = input_dim 
self.num_neighbors_list = num_neighbors_list 
self.num_layers = len(num_neighbors_list) 
self.gcn = [] 
self.gcn.append(SageGCN(input_dim, hidden_dim[0])) 
self.gcn.append(SageGCN(hidden_dim[0], hidden_dim[1], activation=None)) 


forward(self, node_features_list): 
hidden = node_features_list 
for 1 in range(self.num_layers): 
next_hidden = [] 
gcn = self.gcn[1] 
for hop in range(self.num_layers - 1): 
src_node_features = hidden[hop] 
src_node_num = len(src_node_features ) 
neighbor_node_features = hidden[hop + 1] \ 
.vLew(src_node_num, self.num_neighbors_list[hop], -1) 
h = gcn(src_node_features, neighbor_node_features) 
next_hidden.append(h) 
hidden = next_hidden 
return hidden[0] 
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图 分 类 问题 是 一 个 重要 的 图 层面 的 学 习 任务 。 与 市 点 层面 的 任务 不 同 ， 图 分 类 需要 关 
注 图 数据 的 全 局 信息 ， 既 包含 图 的 结构 信息 ， 也 包含 各 个 市 点 的 属性 信息 。 给 定 多 张 图 ， 
以 及 每 张 图 对 应 的 标签 ， 图 分 类 任务 需要 通过 学 习 得 出 一 个 由 图 到 相应 标签 的 图 分 类 柑 
型 ， 模 型 的 重点 在 于 如 何 退 过 学 习 得 出 一 个 优秀 的 全 图 表示 问 量 。 


图 分 类 任务 与 视觉 图 像 中 的 分 类 任务 一 样 ， 二 者 都 需要 对 全 局 的 信息 进行 融合 学 习 。 
在 CNN 模 型 中 ， 通 种 采用 的 做 法 是 通过 层次 化 池 化 〈Hierarchical Pooling) 机 制 来 逐渐 提 
取 全 局 信息 。 得 葵 于 图 数据 中 规则 的 栅 格 结构 ， 国 定 大 小 与 步 长 的 滑 窗 使 得 最 大 化 池 化 或 
者 平均 池 化 等 向 单 操 作 都 能 够 比较 高 效 地 抽取 出 高 阶 信 息 。 然 而 ， 对 于 非 规 则 结构 的 图 数 
据 ， 这 类 池 化 操作 的 直接 迁移 变 得 不 可 行 。 在 图 分 类 任务 中 实现 层次 化 池 化 的 机 制 ， 是 
GNN 需 要 解决 的 基础 问题 。 


本 草 的 内 容 包括 3 个 部 分 : 基于 一 次 性 全 局 池 化 的 图 分 类、 基于 层次 化 池 化 的 图 分 
类 ， 以 及 基于 SAGPool 的 图 分 类 模型 实战 。 


8.1 基于 全 局 闻 化 的 图 分 类 


在 第 7 章 中 介绍 的 MPNN， 除 了 为 图 中 节点 的 表示 学 习 提 出 了 一 般 框架 外 ， 作 者 也 设 
计 工 一个 读 出 《readour) 机 制 对 经 过 K 轮 进 代 的 所 有 节点 进行 一次 性 聚合 操作 ， 从 而 输出 
1 全 局 表示 ; 


y = R({h | Vv, EV}) (8.1) 


sc HH AL Sj CNN BRAY Bay FA SY A PR ae Jig AERE Fett, (Global Pooling) #% 
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一 样 ， 读 出 机 制 也 可 以 取 Sum、Mean、Max 等 类 型 的 函数 。 


与 谈 出 机 制 十 分 相似 的 一 种 做 法 是 ， 引 文 [通过 引入 一 个 与 所 有 而 点 都 相连 的 虚拟 
市 把， 将 全 图 的 表示 等 价 于 这 个 虚拟 节操 的 表示 。 这 种 思路 同时 也 在 GN 中 全 局 表示 u 的 更 
新 过 程 中 得 到 了 体现 。 





显而易见 ， 读 出 机 制 的 处 理 方式 丢失 了 图 数据 里 面 丰富 的 结构 信息 。 其 本 质 上 古 将 输 
入 数据 看 作 一 种 平整 旦 规则 的 结构 数据 ， 所 有 的 节 扣 部 锐 同等 看 生 ， 这 与 图 数据 本 里 古 相 
违背 的 。 从 这 个 角度 来 看 ， 读 出 机 制 更 能 适应 的 是 对 小 图 数据 的 学 习 ， 一 方面 是 因为 小 图 
数据 中 的 结构 信息 相对 单一 ; 为 一 方面 是 因为 经 过 K 轮 消 居 传播 机 制 的 沈 代 之 后 ， 图 中 各 
个 节点 的 表达 会 更加 接近 全 局 表达 ， 此 时 读 出 机 制 也 能 比较 好 地 提取 全 局 信息 。 故 外 ， 从 
实际 工程 层面 来 看 ， 读 出 机 制 易于 实现 ， 非 常 适合 作为 图 分 类 的 基准 模型 。 





8.2 ”基于 层次 化 池 化 的 图 分 类 
本 节 以 3 种 不 同 的 思路 介绍 能 够 实现 图 数据 层次 化 池 化 的 方案 。 


(1) SEF AAA (Graph Coarsening) 的 池 化 机 制 : 图 志 缩 是 将 图 划分 成 不 同 的 子 
图 ， 然 后 将 子 图 视 为 超级 市 点， 从 而 形成 一 个 地 缩 的 图 。 这 类 方法 正 是 借用 这 种 方式 实现 
了 对 图 全 局 信息 的 层次 化 学 习 。 


(2) 基于 TopK 的 池 化 机 制 ， 对 图 中 每 个 节操 学 习 出 一 个 分 数 ， 基 于 这 个 分 数 的 排序 
丢弃 一 些 低 分 数 的 节点 ， 这 类 方法 借鉴 了 CNN 中 最 大 池 化 操作 的 思路 : 将 更 重要 的 信息 
所 不 同 的 是 ， 图 数据 中 难以 实现 局 部 请 窗 操 作 ， 因 此 需要 依据 分 数 进 行 全 局 萌 





(3) 基于 边 收缩 〈Edge Contraction) 的 池 化 机 制 : 边 收缩 是 指 并 行 地 将 图 中 的 边 移 
除 ， 并 将 被 移 际 边 的 两 个 节点 合并 ， 同 时 保持 被 移 除 节 点 的 连接 关系 ， 访 思路 是 一 种 通过 
归并 操作 来 逐步 学 习 图 的 全 局 信息 的 方法 。 


8.2.1 F&F ARH 
1. Se 


假设 对 于 图 G， 通 过 某 种 划分 策略 得 到 K 个 子 图 {G j#+- !，N 表 示 子 图 G 40 中 的 节 
点 数 ， TK) 表示 子 图 G O 中 的 节点 列表 。 





0 1 1 0 0 =O 

1 0 1 0 0 0 

1 1 O 1 0 0 
A= 

0 0 1 0 1 1 

0 0 0 1 0 1 

0 0 0 1 1 0 


图 8-1 Aaa bl 
下 面 我 们 给 出 图 择 缩 中 的 两 个 比较 重要 的 矩阵 : 
第 一 个 是 篮 分 配 矩 阵 SERN 鹤 ， 其 定义 如 下 : Si=1 当 且 仅 当 vi ET O? 。 
例如 ， 在 图 8-1 所 示 的 图 反 缩 示 例 中 ， 我 们 将 图 G 划 分 成 两 个 徐 ， 这 两 个 复 对 应 了 图 
RZ SPA NEA, FEAT O =fv,, vo, va}, T 6%? ={w，v，ve}。 因 此 : 


0 


O o omme 


下 来 我 们 考察 一 下 STAS 的 意义 ， 由 于 ST 的 第 行 表示 的 是 所 有 属于 第 i 个 簇 的 节点 ， 依 
WARMER ATS, (STA) ,表示 的 是 第 i 个 簇 内 所 有 与 节点 v，( 全 图 中 的 第 j 个 节点 ) 有 关 
联 的 连接 强度 之 和 。 同 理 可 推 ，( (STA) S) ,反映 了 第 i 个 能 与 第 j 个 马 的 连接 强度 。 如 
图 8-1 中 的 例子 : 


0 110 0 oli 0 
1010 0 Ol]1 0 
: } tithe ot ot tle 
STAS = 
00011100101 1/0 1 
0001010 1 
00011 0/0 1 
1 0 
1 0 
22210 0ll1 0 
| ,2 alo 
0 1 
0 1 
6 1 
如 条 我 们 令 : 
4 一 9 AS (8.2) 
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的 连接 强度 ， 如 果 只 考虑 超级 节点 之 间 的 连接 强度 ， 我 们 可 以 设置 A[i， 计 -0。 


Fo 


Ww IDL AAS x Io Vy (4) _ VIZ VIZ 网 二 
第 二 个 是 采样 算 子 CeRWYMN， 其 定义 为 :CY 一 寺 当 且 仅 当 7 v, 


Kp, T 表示 列表 7 © 中 的 第 j 个 元 素 。C 是 节点 在 原 图 和 子 图 中 顺序 关系 的 一 个 指 
TER. WEARI 。 


— 维 图 信号 为 xER`， 下 列 两 式 分 别 完 成 了 对 图 信号 的 下 采样 与 上 
TRI BR 


=O ee Ce (8.3 ) 

上 述 左 式 完成 了 对 图 信号 在 子 图 G L 上 的 采样 〈 切 片 ) 功能 ; 右 式 完成 了 子 图 信和 号 
x O 在 全 图 的 上 采样 功能 ， 该 操作 保持 子 图 中 节点 的 信号 值 不 变 ， 同 时 将 不 属于 该 子 图 
的 其 他 节点 的 值 设 置 为 0。 显 然 ， 该 采样 算 子 也 适用 于 多 维 信号 矩阵 XERNd。 


有 了 采样 算 子 的 定义 ， 对 于 子 图 G © 的 邻接 矩阵 涉 ”E RO"! appa Fate 
得 (事实 上 ，A 9 也 可 以 通过 对 A 进 行 和 矩阵 的 双向 切片 操作 获得 ) : 


A = (COY AC™ ( 8 4 ) 
根据 式 〈8.4) 可 以 得 到 上 面 例子 中 第 一 个 禾 内 的 邻接 窍 阵 : 


AW — (Chy AC? 


0 1 1 0 0 OF; 1 0 0 
1 0 1 O O 0I0 1 0 
] 0 0 0 0 
1 1 O 1 O OJO 0 1 
= 000 
0 0 1 O 1 10 0 0 
0 1 0 0 0 
0 0 0 1 O 1/0 0 0 
0 0 0 1 1 0I0 0 0 
0 ] 
=|1 0 1 
] 0 


通过 上 述 两 个 矩阵 可 以 确定 入 内 的 邻接 关系 以 及 刻 间 的 邻接 关系 。 进 一 步 来 讲 ， 如 下 





Hew MEATS SHAS TIA, KARKR AS EN fa Ss, ARABIA 
XRT, BLAB IR ROR Ee INAS o Al8-26t NA AAS4R SGNNZ AIT: 1% 
ARS SPARS MEE BR SIA TBAT PAIR REST A RES GNN ER 
AY, RAE ee oP BI — RE, BRR SAR, TER Bla 
REC ARP IE IA eZ, KRAH N= ER A MLPA EAT AP RES FO 












图 8-2 ”图 坦 缩 与 GNN 结 合 的 过 程 D 


2.DIFFPOOL 


DIFFPOOLI1 是 首 个 将 图 地 缩 过 程 与 GNN 结 合 起 来 进行 图 层面 任务 学 习 的 算法 。 
DIFFPOOL 提 出 了 一 个 可 学 习 的 秘 分 配 和 矩阵 。 具 体 来 说 就 是 ， 首 先 通 过 一 个 GNN 对 每 个 节 
点 进行 特征 学 习 ， 然 后 通过 男 一 个 GNN 为 每 个 节点 学 习 出 所 属 各 个 艇 的 概率 分 布 : 





(D) _ (/) (D) 
rA _ GNN, embed(4 - H ) ( 8.5 ) 
S” = sof A®, H® (8.6) 
softmax(GNN, pool, )) 8.6 
nll x nll nll xn I+ 
gp APE RT", SPER" OW 表示 第 I 层 的 节点 数 ，n OD 表示 第 


q+) ANWR GR) 数 ， 相 较 于 上 和 面 例子 中 $S 和 矩阵 的 便 分 配 ， 这 里 面 学 习 出 来 的 矩阵 

是 一 个 软 分 配 如 ， 其 值 表示 市 点 修 分 配 到 任意 一 个 簇 的 概率 ， 由 于 概率 值 不 为 0， 因 此 这 
是 一 个 下 层 超 级 市 点 到 上 层 所 有 市 点 之 间 的 全 连接 结构 。GNNI, embed, GNN), poole Wy 
个 独立 的 GNN 层 ， 二 者 的 输入 相同 ， 但 是 参数 不 同 ， 学 习 的 目的 不 同 。 和 需要 强调 一 反 的 
re» MPa JA Rea ACRE, RI m Be a eG HE BE [a] EP EE BE, RE 
AVA, ECE is Baht PTAA PTS A FEC RE AT EN ES o 


AS ERR PASSE AR RATE AX RET YHA : 


HOY = S020 (8.7) 
ALD = GO sO (88) 





本 文 将 上 述 两 个 公式 称 为 DIFFPOOL 层 C (A, ZR) 4 AHP, 
HD) ) 。 式 (8.7) 是 对 艇 内 的 信息 执行 融合 操作 ， 依 据 矩 阵 乘法 的 行 向 量 计 算 方 
T 
式 ， 可 以 清楚 地 知道 S$ ”2" 表示 的 是 对 簇 内 所 有 节点 的 特征 向 量 进行 加 和 处 理 。 式 
(8.8) 即 为 篮 间 的 邻接 矩阵 的 计算 。 


DIFFPOOL 具 有 排列 不 变性 : 假设 PE{0，1} 细 是 一 个 任意 的 排列 和 矩阵， 只 需要 保证 
前 面 用 到 的 GNN 层 是 排列 不 变 的 ，DIFFPOOL 层 就 具有 排列 不 变性 ， 即 : 
DIFFPOOL(A, Z) = DIFFPOOL(PAP', PX) (8.9 ) 


排列 矩阵 的 作用 是 对 图 中 节点 进行 重 排序 ， 比 如 一 个 仅 有 两 个 节点 相连 的 图 ， 如 果 我 
们 需要 将 两 个 节点 的 编号 进行 对 调 ， 则 对 应 的 排列 矩阵 4， 排 列 矩 阵 是 正 交 的 ， 即 
PTP=I。 我 们 可 以 通过 PX、PAPT 来 分 别 获 得 重 排序 之 后 的 特征 矩阵 与 邻接 矩阵 。 

证 明 : 假设 我 们 用 到 的 GNN 模 型 是 GCN 模 型 ，GCN 模 型 是 满足 排列 不 变 的 。 设 GCN 
的 输出 ”CN(4, A) = ReLUD AD AW), 现在 使 用 对 输入 进行 重 排序 ， 则 ; 





GCN(PAP’, PX) = ReLU((PD '?AD'’P")(PX)W) (8.10) 
= ReLU(PD AD" XW) 
= PS 


这 里 用 到 了 PIP=I 的 性 质 。 由 此 可 知 ， 对 GCN 输 入 节点 的 顺序 进行 重 排列 ， 输 出 节点 
的 顺序 也 会 对 应 排列 ， 但 节 扣 输出 的 表达 问 量 并 不 会 改变 。 因 此 ，GCN 是 具有 排列 不 变 
性 的 《也 有 称 这 种 性 质 为 排列 等 变性 的 ， 这 古 由 于 GCN 上 所 使 用 的 聚合 操作 是 排列 不 变 
的 ， 可 参考 7.1 市 的 相关 内 容 )。 


接着 将 此 时 GCN 的 各 个 输出 值 代入 DIFFPOOL 的 式 (8.7) 、 式 (8.8) 中 ， 得 到 : 


(PS)'(PZ) = 8z (8.11) 


(PS)'(PAP')(PS) = SAS (8.12 ) 
从 所 得 结果 可 以 看 出 来 ， 这 种 重 排 列 操作 并 没有 改变 DIFFPOOL 的 两 个 输出 结果 。 于 
是 式 (8.9) 得 证 。 
总 的 来 说 ， 如 果 我 们 将 GCN 与 DIFFPOOL 合 在 一 起 看 成 一 个 层 ， 对 输入 的 图 数据 进行 
任意 的 重新 编号 ， 输 出 到 下 一 层 的 特征 矩阵 与 邻接 窍 阵 并 不 会 改变 ， 这 种 性 质 是 非常 符合 
觉 的 : 节点 是 否 重 新 排序 并 不 应 该 影响 节点 聚合 成 艇 的 结果 。 


有 了 了 上述 DIFFPOOL 层 的 定义 ， 我 们 就 可 以 模仿 CNN 分 类 模型 的 结构 设计 ， 不 断 组 合 





HEESGNN/=-SDIFFPOOL/, KPA SA. FA SL, FATE AY 
ERR. FY REN Aare te PE A824 OAH, RBA. 


3.EigenPooling 


EigenPooling!?! 8 — PP F AAR TL, (EE NIA EE SPA TK, 
EigenPooling 没 有 对 图 分 类 模型 引入 任何 需要 学 习 的 参数 ， 这 种 非 参 的 池 化 机 制 与 视觉 模 
型 中 的 各 类 池 化 层 上 共有 很 蜗 的 类 比 性 ， 如 表 8-1 所 示 : 

表 8-1 EigenPooling 与 视觉 模型 中 的 池 化 比较 


性 质 EigenPooling 视 党 模型 中 的 Pooling 


前 置 层 类 型 CNN 

作用 域 滑 窗 

作用 域 的 选取 图 分 区 算法 〈 比 如 用 谱 聚 类 对 图 划分 子 图 ) 设 定 超 参 数 ， 比 如 2x 2 的 窗口 大 小 
具体 池 化 操作 基于 子 图 的 传 里 叶 变 换 取 最 大 值 或 均值 





从 表 8-1 中 我 们 可 以 再 一 次 看 到 ，GNN 模 型 与 CNN 模 型 其 实 是 殊途同归 的 。 回 到 
EigenPooling 的 具体 过 程 中 ， 其 核心 步骤 在 于 作用 域 鸭 选取 以 及 池 化 操作 ， 作 用 域 是 通过 
划分 子 图 的 方式 对 图 进行 分 区 得 到 的 ， 这 等 价 于 图 绎 缩 的 过 程 ， 通 过 这 一 步 可 以 得 到 新 的 
超级 节点 之 间 的 邻接 和 矩阵， 池 化 操作 需要 考虑 的 是 对 作用 域内 的 信息 进行 融合 ， 退 过 这 一 
步 可 以 得 到 关于 新 的 超级 节点 的 特征 和 矩阵。 值得 注意 的 是 ， 在 视觉 模型 中 的 池 化 操作 有 的 作 
用 域 都 是 规则 的 栅 格 结构 ， 比 如 2x2 大 小 的 请 窗 ， 滑 窗 之 间 没 有 结构 性 的 区 别 ， 而 在 图 南 
顷 的 子 图 上 ， 作 用 域内 的 信息 包含 了 结构 信息 与 属性 信息 ， 特 别 是 结构 信息 ， 不 同 的 子 图 
闻 有 比较 大 的 区 别 ， 因 此 结构 信息 的 提取 也 是 一 个 需要 重点 考虑 的 问题 ，EigenPooling 束 
同时 考虑 了 这 两 种 信息 并 进行 了 融合 。 和 下 面 对 上 述 两 个 步骤 进行 详细 讲解 。 


(1) BHA 


5 DIFFPOOLIE IW Z 3 Hh 7 eo) BC BER ET FAI PAS BIA aE, ~EigenPooling 
HN) ARPA 28 Ala Rie SE ASUS, FEA -2A a KNB 
来 实现 图 的 划分 ， 比 如 选用 谱 从 类 算法 由。 谱 从 类 是 一 类 比较 典型 的 聚 类 算法 ， 其 基本 思 
路 是 先 将 数据 变换 到 特征 空间 以 辐 显 更 好 的 区 分 度 ， 然 后 执行 聚 类 操作 《比如 选用 
Kmeans 算 法 进行 聚 类 ) ， 算 法 的 输入 是 邻接 矩阵 以 及 艇 数 K， 输 出 的 是 每 个 节点 所 属 的 
秘 。 值 得 注意 的 是 ， 这 里 如 果 选 用 Kmeans 算 法 进行 聚 类 ， 那 么 徐 的 分 配 就 是 一 种 硬 分 
配 ， 每 个 节点 仪 能 从 属于 一 个 簇 ， 这 种 人 硬 分 配 机 制 保持 了 图 坟 缩 之 后 的 超级 闻 点 之 间 连 接 
的 稀疏 性 ， 与 之 相对 的 是 DIFFPOOL 中 的 软 分 配 机 制 ， 节 点 以 概率 的 形式 分 配 到 每 一 个 复 
eee UTERE E, KKSD T RRT Dia) Ss EY TA] BS 
AR JS o 


将 图 进行 划分 之 后 ， 我 们 调用 式 (8.2) BAT APS PRBS TREN eR R, A, 
EigenPooling 在 这 一 步 并 没有 考虑 超级 市 点 艇 内 的 连接 强度 。 


(2) 池 化 操作 
在 确定 了 子 图 划分 以 及 相应 的 邻接 矩阵 之 后 ， 我 们 需要 对 每 个 子 图 内 的 信息 进行 整合 














抽取 。 在 DIFFPOOL 中 选择 了 对 节点 特征 进行 加 和 ， 这 种 处 理 方式 损失 了 子 图 本 里 的 结构 
信息 。 而 EigenPooling 用 子 图 上 的 信号 在 该 子 图 上 的 图 傅 里 叶 变 换 来 代表 结构 信息 与 属性 
信息 的 整合 输出 。 从 第 5 章 的 学 习 中 我 们 知道 ， 图 信号 的 频谱 展示 了 图 信号 在 各 个 频 深 分 
量 上 的 强度 ， 它 是 将 图 的 结构 信息 与 信号 本 号 的 信息 统一 考虑 进去 ， 而 得 到 的 一 种 关于 图 
信 坊 的 标识 信息 。 因 此 ，EigenPooling 选 用 了 频谱 信息 来 表示 子 图 信息 的 统一 整合 。 下 面 
给 出 其 具体 计算 过 程 : 

BETEG ' 避 的 拉 普 拉 斯 矩阵 为 L SO  ， 对 应 的 特征 向 量 为 “和 ，”“ ， Bm, ORR, 
使 用 上 采样 算 子 C OO 将 该 特征 向 量 FRERET) 上 采样 到 整个 图 : 


= Con. T= 1 WM (8.13) 


为 了 将 上 述 操作 转换 成 矩阵 形式 ， 以 得 到 池 化 算 子 Bi SR"*， 我 们 将 所 有 子 图 的 第 ] 
个 特征 问 量 按 行 方 同 组 织 起 来 形成 矩阵 @1， 即 : 


= —(k 
O, = [By ..., wy’ (8.14 ) 
需要 注意 的 是 ， 子 图 的 节点 数量 是 不 同 的 ， 所 以 特征 向 量 的 数量 也 不 同 。 用 


“国史 表示 子 图 中 的 最 大 节点 数 。 然 后 ， 若 子 图 G © 的 节点 数 小 于 Nwax， 可 以 将 
N > l 

WON, STS Now) 90 ERO. 6 TBA SEFAVEBETES, MAEA 

述 如 下 : 


X,=O1X (8.15) 


XS RCE THCY ZEA © XA SKATES HE BAK TA EOE FERRE. 
按照 起 机 制 ， 我 们 共和 需要 设计 Nimax 个 池 化 算 子 。 为 了 结合 个 同 池 化 拭 子 收集 到 的 信息 ， 
我 们 可 以 采用 按 列 方 回 拼接 的 方式 ， 将 各 个 结果 连接 起 来 : 


X, [Xo, ..., X Nna (8.16) 


pooled a Nmax 


其 中 Xoooes E 及 ”mo 是 Eigenpooling 最 终 的 池 化 结果 。 同 第 6.3 节 中 论述 的 一 样 ， 
作者 在 该 文中 也 论证 了 现实 场景 下 的 图 数据 中 低频 信息 的 有 效 性 。 因 此 ， 为 了 提高 计算 效 
率 ， 我 们 可 以 选择 使 用 前 H 个 特征 向 量 对 应 的 池 化 结果 ， 一 般 为 H CN... 


pi = pooled 一 [Xo, “ny Xy] ( 8.17 ) 
XA aE EME EIT, WRR BL ye FE, RITI A EIE ERA E 


EigenPooling 是 怎么 利用 图 傅 里 时 变换 对 子 图 信息 进行 整合 的 。 不 失 一 般 性 ， 设 全 图 上 的 
信号 为 x， 则 式 (8.15〉 可 描述 为 : 





UP) x = (uP) (CO) "x = (up) x” (8.18 ) 


其 输出 表示 子 图 上 的 信号 在 子 图 上 对 应 的 第 ] 个 特征 向 量 上 的 傅 里 时 系数 。 式 
(8.16) 的 操作 过 程 如 网 8-3 所 示 : 





Al8-3 EigenPooling 中 子 匈 上 的 网 傅 里 叶 变 换 


图 8-3 中 原 图 被 划分 成 下 、 红 两 个 子 图 ， 由 于 Nmax=4， 所 以 输出 矩阵 为 R*“， 每 行 表 
示 的 是 在 该 子 图 信号 上 的 前 4 个 图 传 里 叶 系 数 。 


同 DIFFPOOL 一 样 ， 如 果 EigenPooling 的 前 置 GNN 层 选用 GCN 的 话 ，EigenPooling 整 体 
也 将 具有 排列 不 变性 ， ee” 图 去 络 、 凶 化 操作 3 个 过 程 看 手 ， 其 证 明 过 
程 与 DIFFPOOL 的 证 明 类 似 ， 这 里 不 再 资 述 


ELAR UL EigenPoolingtF 73" Bi har tly J AA aA 可 以 非常 方便 地 整 
合 到 一 般 的 GNN 模 型 中 ， 实 现 对 图 信息 的 层次 化 抽取 和 学习。 与 DIFFPOOL 相 比 ， 其 主要 优 
势 在 于 保持 了 超级 方 点 之 间 连 接 的 和 琉 性 ， 提高 了 计算 效率 ， 同 时 在 进行 池 化 操作 时 ， 莱 
顾 了 子 图 内 的 结构 信息 与 属性 信息 ， 这 种 做 法 显然 更 加 合理 。 


[1] Ying Z, You J, Morris C, et al.Hierarchical graph representation learning with 
differentiable pooling[C]//Advances in Neural Information Processing Systems.2018: 4800- 
4810. 


8.2.2 ”基于 TopK 的 池 化 机 制 


8.2.1 节 中 介绍 的 基于 图 南 缩 的 池 化 机 制 ， 是 一 个 节操 不 断 聚 合成 族 的 过 程 ， 而 本 市 要 
介绍 的 基于 TopK 的 池 化 机 制 ， 是 一 个 不 断 丢 莽 市 扣 的 过 程 ， 其 抓 住 的 是 图 人 不同 尺度 的 信 
昌 。 和 CNN 中 基于 局 部 请 窗 的 池 化 操作 不 同 的 是 ，TopK 凶 化 将 作用 域 放 到 全 图 节 点 上 。 
具体 来 说 ， 首 先 设 置 一 个 表示 凶 化 率 的 超 参数 k，KkE 0, D, eR FAI NARREA 
We 然后 将 全 图 中 NN 个 节操 下 及 样 至 kN 个 市 太 。 用 公式 表示 
HF: 
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i = top—rank(z, AN) (8.19 ) 
X'= X, ( 8.20 ) 
Aed. (8.21 ) 


Xj, , 表示 按照 问 量 i 的 值 对 特征 窍 阵 进行 行 切 厂 ，Aji, ee aN Pe E ee I AE OY AE E 
同时 进行 行 切片 与 列 切 片 。 不 同 于 DIFFPOOL， 若 将 N 个 节点 分 配给 kN 个 徐 ， 会 使 得 模型 
需要 kN“ 的 空间 复杂 上 度 来 分 配 簇 信息 ， 而 基于 Topk 的 池 化 机 制 ， 每 次 只 需要 从 原 图 中 丢弃 

C-k) NAY ABH EI 


关于 如 何 学 习 节 点 的 重要 度 ， 引 文 [5] 和 引文 [6] 分 别 给 出 了 不 同 的 方法 。 在 引文 叫 
中 ， 作 者 为 图 分 类 模型 设置 了 一 个 全 局 的 基 同 量 p， 将 节点 特征 同 量 在 该 基 辐 量 上 的 投影 
“SVP HUES: 
Ap 
z= ( 8.22 ) 
| P || 
这 样 的 一 个 投影 机 制 ， 具 有 以 下 双重 作用 : 
C1) 可 以 以 投影 的 大 小 来 确定 TopK 的 排序 ; 


(2) 投影 大 小 还 起 到 了 一 个 梯度 门限 的 作用 ， 投 影 较 小 的 节点 仅 有 较 小 的 梯度 更 新 
WARE, AERTS, BOBCATS Aas RFS EOI FG oP HIB PS is IS o 


全 部 细 市 用 公式 表示 如 下 : 


g= Ipi , i = top—rank(z, kN) ( 8.23 ) 
X'= (X © tanh(z)),. (8.24 ) 
A'=A,, ( 8.25 ) 


在 特征 矩阵 的 更 新 中 点 乘 了 一 个 tanh (2) ， 这 相当 于 利用 节点 的 重要 度 对 节点 特征 
做 了 一 次 收缩 变换 ， 进 一 步 强 化 了 对 重要 度 高 的 节点 的 梯度 和 学习。 该 文 将 上 述 过 程 称 类 
gpool 层 。 

相 较 于 基于 图 翰 缩 的 池 化 机 制 对 图 中 所 有 节点 不 断 融合 学 习 的 过 程 ，gpool 层 采取 了 
层 层 坪 弃 和 点 的 做 法 来 提高 远 距 离 节 操 的 融合 效率 ， 但 是 这 种 做 法 会 使 得 其 缺乏 对 所 有 硬 
点 进行 有 效 信息 融合 的 手段 。 因 此 ， 为 了 实现 上 述 目的 ， 作 者 选择 在 每 一 个 gpool 层 之 后 
跟随 一 个 读 出 层 ， 实 现 对 该 尺度 下 的 图 的 全 局 信息 的 一 人 次 性 聚合 。 读 出 层 的 具体 实现 方式 
是 将 全 局 平均 池 化 与 全 局 最 大 池 化 拼接 起 来 : 


N 4 
最 终 ， 为 了 得 到 全 图 的 表示 ， 将 各 层 的 s 相 加 ; 


L 
S = > ( 8.27 ) 


Is ,, N | | 
s 2% | maxx ( 8.26 ) 


图 8-4 给 出 了 一 种 可 能 的 模型 结构 : 


党 这 mean||max 





predict 


图 8-4 ”基于 TopK 池 化 的 图 分 类 模型 结构 





图 8-4 中 的 模型 使 用 了 两 层 gpool 层 ， 相 应 地 也 设置 了 两 层 读 出 层 ， 之 后 对 两 层 读 出 层 
的 输出 进行 相 加 得 到 全 图 的 问 量 表示 ， 然 后 送 到 一 个 MLP 里 和 面 进行 图 分 类 的 任务 学 习 。 


关于 丢弃 节 点 的 池 化 机 制 ， 引 文书 给 出 了 一 种 新 的 方式 : 自 注 意 力图 池 化 
(SAGPool) ， 广 方法 使 用 了 一 个 GNN 对 而 点 的 重要 虚 进 行 学 习 ， 相 较 于 gpool 全 局 基 回 
量 的 设计 ， 这 种 基于 GNN 的 方式 更 好 地 利用 图 的 结构 信息 对 节点 的 重要 度 进 行 学 习 。 在 
该 文中 ， 作 者 也 基于 SAGPool 层 与 谈 出 层 设 计 了 两 套 高 效 的 图 分 类 模型 ， 这 一 部 分 的 细 
节 ， 我 们 放 到 相应 的 实战 中 去 讲解 ， 这 里 不 再 芝 述 。 


[1] Cangea C, VelickovicP, JovanovicN, et al.Towards sparse hierarchical graph 
classifiers[J].arXiv preprint arXiv: 1811.01287, 2018. 

[2] Lee J, Lee I, Kang J.Self-Attention Graph Pooling[J].arXiv preprint arXiv: 1904.08082, 
2019. 


8.2.3 ”基于 边 收 缩 的 池 化 机 制 


本 节 我 们 来 介绍 基于 边 收缩 的 池 化 机 制 一 EdgePool ]， 该 方法 将 边 收缩 这 一 图 论 领域 
重要 的 变换 操作 与 咒 对 端的 学 习 机 制 结合 起 来 ， 实 现 了 对 疼 数据 的 层次 化 池 化 操作 。 概 丘 
地 说 ， 访 方法 达 代 式 地 对 每 条 边 上 的 市 挟 进 行 两 两 归并 形成 一 个 新 的 市 把， 同时 保留 合 3 
前 两 个 市 点 的 连接 关系 到 新 节 扣 上 。 这 里 存在 一 个 问题 ， 每 个 市 点 有 多 条 边 ， 但 是 每 个 节 
扩 只 能 从 属于 一 条 边 进 行 边 收 因 ， 那 么 该 如 何 选择 每 个 节 扣 所 从 属 的 边 呢 ?为 此 ， 
EdgeP00l 对 每 条 边 设 计 了 一 个 分 数 ， 依 据 该 分 数 进行 非 重 复式 的 挑选 与 合并 。 具 体操 作 如 


下 : 
对 每 条 边 ， 计 算 原 始 分 数 Ir: 
r,=w [hlh,]+b ( 8.28 ) 


HPs A PEM RI, me MARNE ERTA, MA, RAII a a ah Bx 
沿 邻 大 节操 进行 归 一 化 : 


S; = SOftmax,(7;) ( 8.29 ) 


得 到 上 述 分数 之 后 ， 接 下 来 对 所 有 的 sij 进 行 排序 ， 依 次 选择 该 分 数 最 高 的 且 未 被 选中 
的 两 个 节点 进行 收缩 操作 。 细 节 如 图 8-5 所 示 : 


o © 
, , 
SAN. SS 


图 8-5 EdgePoolit fel! 
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定 <vv，v1> 边 的 时 候 ， 尽 管 <v>，v3> 边 上 具有 更 高 的 分 数 0.8， 但 是 va 节点 已 经 被 选择 与 V4 






ë) d) 





节点 进行 合并 ， 因 此 选择 分 数 次 高 的 <v，,，v1> 边 进行 收缩 ，d 图 展示 了 合并 之 后 的 结果 。 
合并 之 后 的 节点 特征 ， 可 以 使 用 求 和 的 方式 表示 : 
h, = s(h, + h,), s = max(s,, 5;) ( 8.30 ) 


其 中 hi 表示 vi 与 w 节 点 合并 后 的 新 节点 的 特征 向 量 ， 在 计算 该 值 的 时 候 ， 与 前 面 诸多 
方法 一 样 ， 同 样 使 用 了 分 数 s 对 节点 特征 进行 了 收缩 处 理 。 如 果 边 上 有 特征 需要 处 理 的 
话 ，si 与 h 的 计算 可 以 建立 在 RDF 三 元 组 之 上 ， 具 体形 式 读者 可 自行 思考 ， 


EdgePool 与 DIFFPOOL 一 样 ， 都 是 不 断 对 图 中 所 有 节点 进行 融合 学 习 ， 不 同 的 是 
DIFFPOOL 需 要 自行 设置 聚 类 复数 ， 而 EdgePool 利 用 边 收缩 将 节点 归并 比率 严格 控制 在 
0.5， 另 外 ， 正 是 因为 利用 了 边 收 缩 的 原理 ，EdgePool 仅 将 相近 的 邻居 节点 进行 归并 ， 这 
种 做 法 具有 如 下 优点 : 节点 的 融合 都 是 从 边 进行 的 ， 这 契合 了 图 的 结构 信息 ， 更 加 合理 ; 
同时 该 操作 也 保留 了 融合 之 后 图 中 连接 的 稀 玻 性 ， 空 间 复杂 上 度 更 低 。 作 为 一 种 端 对 端的 池 
化 机 制 ，EdgePool 也 可 以 被 广泛 地 整合 到 各 个 GNN 模 型 中 ， 以 完成 对 图 分 类 任务 的 学 
e 


[1] Diehl F.Edge Contraction Pooling for Graph Neural Networks[J].arXiv preprint arXiv: 
1905.10990, 2019. 


8.3 ”图 分 类 实战 


本 看 我 们 通过 代码 来 实现 基于 目 注意 力 的 池 化 机 制 〈《Self-Attention Pooling) 。 这 种 
方法 的 思路 是 通过 网 郑 积 从 岁 中 目 适 应 地 学 习 到 币 点 的 重要 性 。 有 具体 来 说 ， 使 用 第 5 草 中 
定义 的 图 卷 积 方式 ， 可 以 为 每 个 节 点 赋予 一 个 重要 性 分 数 ， 如 式 〈8.31) HZR. 


Z= o(D "AD" XO) (8.31 ) 


其 中 a 表 示 激 活 函数 ， 4 表示 增加 了 自 连接 的 邻接 矩阵 ，X 表 示 节 点 的 特征 ， 
B,, ERMN1 是 权重 参数 ， 这 也 是 自 注 意 力 池 化 层 中 唯一 引入 的 参数 。 关 于 上 述 图 卷 积 的 实 
现 ， 参 考 5.4 节 具体 的 代码 实现 ， 这 里 不 再 歼 述 。 

根据 节点 重要 度 分 数 和 拓扑 结构 可 以 进行 池 化 操作 ， 如 式 (8.19) 所 示 ， 伟 弃 掉 部 分 
不 太 重 要 的 节点 ， 对 邻接 矩阵 和 节点 特征 进行 更 新 ， 得 到 池 化 结果 。 首 先 来 看 如 何 根据 式 
(8.19) 实现 节点 的 选择 。 代 码 片 段 如 代码 清单 8-1 所 示 : 


代码 清单 8-1 根据 市 点 重要 上 度 分 数 进行 池 化 操作 





import os 

import urllib 

import torch 

import torch.nn as nn 

import torch.nn.init as init 
import torch.nn.functional as F 
import torch.utils.data as data 
import numpy as np 

import scipy.sparse as sp 

from zipfile import ZipFile 
from sklearn.model_selection import train_test_split 
import pickle 


def top_rank(attention_score, graph_indicator, keep_ratio): 
""" 基 于 给 定 的 attention_score， 对 每 个 图 进行 poo1ing 操 作 
为 了 直观 地 体现 p001ing 过 程 ， 我 们 将 每 个 图 单独 进行 池 化 ， 最 后 再 将 它们 级 联 起 来 进行 下 一 步 计算 


Arguments: 
attention_score: torch.Tensor 
使 用 GCN 计 算出 的 注意 力 分 数 ，Z = GCN(A, X) 
graph_indicator: torch.Tensor 
指示 每 个 市 点 属于 哪个 图 
keep_ratio: float 
要 保留 的 节点 比例 ， 保 留 的 节点 数量 为 int(N * keep_ratio) 





graph_id_list = list(set(graph_indicator.cpu().numpy()) ) 

mask = attention_score.new_empty((0,), dtype=torch.bool) 

for graph_id in graph_id_list: 
graph_attn_score = attention_score[graph_indicator == graph_id] 
graph_node_num = len(graph_attn_score) 
graph_mask = attention_score.new_zeros((graph_node_nun, ), 

dtype=torch.bool) 

keep_graph_node_num = int(keep_ratio * graph_node_num) 
_, sorted_index = graph_attn_score.sort(descending=True) 
graph_mask[sorted_index[ :keep_graph_node_num]] = True 
mask = torch.cat((mask, graph_mask) ) 

return mask 


5 


函数 top_rank 接 收 3 个 参数 ， 一 是 使 用 GCN 得 到 的 节点 重要 度 分 数 attention_score; 二 
是 指示 每 个 节点 属于 哪个 图 的 参数 graph_indicator， 这 里 我 们 将 多 个 需要 分 类 的 图 放 在 一 
起 进行 批 处 理 ， 以 提高 运算 速度 ， graph_indicator 里 面包 含 的 数据 为 [0， 0，...，0，1， 
1，...，1，2，2，...，2...]。 需 要 注意 的 是 ，graph_indicator 的 标识 值 需 要 进行 升序 排列 ， 
同时 属于 同一 个 图 的 节点 需要 连续 排列 在 一 起 ;三 是 超 参 数 keep_ratio， 表 示 每 次 池 化 需 
要 保留 的 节点 比例 ， 这 是 针对 单个 图 而 言 的 ， 不 是 整个 批 处 理 中 所 有 的 数据 。 实 现 逻 辑 上 
根据 graph_indicator 依 次 过 历 每 个 图 ， 取 出 访 图 对 应 的 注意 力 分 数 ， 并 进行 排序 得 到 要 保 
留 的 节点 索引 ， 将 这 些 位 置 的 索引 设置 为 True， 得 到 每 个 子 图 节点 的 掩 码 向 量 。 将 所 有 图 
的 掩 码 拼接 在 一 起 得 到 批 处 理 中 所 有 节点 的 掩 码 ， 作 为 函数 的 返回 值 。 


接 下 来 ， 根 据 得 到 的 节点 掩 码 对 图 结构 和 特征 进行 更 新 。 图 结构 的 更 新 是 根据 掩 人 码 同 
量 对 邻接 和 起 阵 进行 宗 引 ， 得 到 保留 节点 之 间 的 邻接 矩阵 ， 再 进行 归 一 化 ， 作 为 后 续 GCN 
层 的 输入 。 因 此 我 们 定义 两 个 功能 函数 normalization (adjacency) 和 
filter_adjacency (adjacency, mask) 。 其 中 normalization (adjacency) 接收 一 个 
scipy.sparse.csr_matrix， 对 它 进 行规 范 化 并 转换 为 torch.sparse.FloatTensor。 为 一 个 函数 
filter_adjacency (adjacency, mask) 接收 两 个 参数 ， 一 个 是 池 化 之 前 的 邻接 矩阵 
adjacency， 它 的 类 型 为 torch.sparse.FloatTensor， 男 一 个 是 水 数 top_rank 输 出 的 节点 的 掩 码 
mask。 为 了 利用 sicpy.sparse 提 供 的 切记 索引 ， 这 里 将 池 化 之 前 的 adjacency 转 换 为 
scipy.sparse.csr_matrix， 然 后 通过 的 人 码 mask 进 行 切 片 ， 得 到 池 化 后 的 节点 之 则 的 邻接 天 
> ， 随 后 再 使 用 了 疯 数 normalization 进 行规 泡 化 ， 作 为 下 一 层 图 知 积 的 输入 。 如 代码 清 蛙 8-2 

小: 


代码 清单 8-2 ”图 结构 更 新 











def normalization(adjacency): 
"MM 计算 L=DA-0.5 * (AtI) * DA-0.5, 
输入 为 scipy .sparse， 输 出 为 torch.sparse.FloatTensor""" 
adjacency += sp.eye(adjacency.shape[0]) # 增加 自 连接 
degree = np.array(adjacency.sum(1) ) 
d_hat = sp.diags(np.power(degree, -0.5).flatten()) 
L = d_hat.dot(adjacency).dot(d_hat).tocoo() 
# 转换 为 torch.sparse.FloatTensor 
indices = torch.from_numpy(np.asarray([L.row, L.col])).long() 
values = torch.from_numpy(L.data.astype(np.float32) ) 
tensor_adjacency = torch.sparse.FloatTensor(indices, values, L.shape) 
return tensor_adjacency 


def filter_adjacency(adjacency, mask): 
device = adjacency.device 
mask = mask.cpu().numpy() 
indices = adjacency.coalesce().indices().cpu().numpy( ) 
num_nodes = adjacency.size(0) 
row, col = indices 
maskout_self_loop = row != col 
row = row[maskout_self_loop] 
col = col[maskout_self_loop |] 
Sparse_adjacency = sp.csr_matrix((np.ones(len(row)), (row, col)), 
shape=(num_nodes, num_nodes), dtype=np.float32) 
filtered_adjacency = sparse_adjacency[mask, :][:, mask] 
return normalization(filtered_adjacency).to(device) 





利用 上 和 面 介绍 的 这 些 功 能 函数 ， 束 可 以 实现 目 注 意 力 池 化 屋 ， 该 层 的 输出 为 池 化 之 后 
的 特征 、 节 扣 属 于 哪个 子 图 的 标识 以 及 规范 化 的 邻接 窍 阵 。 如 代码 清单 8-3 所 示 : 


代码 清单 8-3 ”基于 目 注 意 力 机 制 的 池 化 层 


em | 


class SelfAttentionPooling(nn.Module): 
def _ init (self, input_dim, keep_ratio, activation=torch.tanh): 
super(SelfAttentionPooling, self). init _() 
self.input_dim = input_dim 
self.keep_ratio = keep_ratio 
self.activation = activation 
self.attn_gcn = GraphConvolution(input_dim, 1) 


def forward(self, adjacency, input_feature, graph_indicator): 
attn_score = self.attn_gcn(adjacency, input_feature).squeeze() 
attn_score = self.activation(attn_score) 
# RAS TEAS E 
mask = top_rank(attn_score, graph_indicator, self.keep_ratio) 
# 更 新 特征 官 阵 
hidden = input_feature[mask] * attn_score[mask].view(-1, 1) 
mask_graph_indicator = graph_indicator [mask] 
# 更 新 图 结构 
mask_adjacency = filter_adjacency(adjacency, mask) 
return hidden, mask_graph_indicator, mask_adjacency 





ETT PR, Ae Ee BRE, EET BIAS TA BS) RT Be aE I] |] ZEEE e 
perenne ner nes 下 面 是 这 两 种 方式 的 实现 代码 ， 如 代码 清单 8-4 
7N: 


代码 清单 8-4 图 读 出 机 制 





# 图 全 局 平均 和 最 大 值 池 化 的 实现 
import torch_scatter 
def global_max_pool(x, graph_indicator): 
num = graph_indicator.max().item() + 1 
return torch_scatter.scatter_max(x, graph_indicator, dim=0, dim_size=num) [0] 


def global_avg_pool(x, graph_indicator): 
num = graph_indicator.max().item() + 1 
return torch_scatter.scatter_mean(x, graph_indicator, dim=0, dim_size=num) 





这 里 我 们 使 用 包 torch_scatter 来 简化 实现 的 过 程 ， 其 中 用 到 的 两 个 函数 scatter_mean 和 
scatter max 的 原理 如 图 8-6 所 示 。 


至 此 ， 我 们 就 可 以 定义 图 分 类 的 模型 了 。 接 下 来 我 们 定义 如 图 8-7 所 示 的 两 套 
SAGPool 模 型 ， 其 中 a 图 仅 用 了 一 个 池 化 层 ， 这 套 模 型 称 为 SAAGPools,，“g” 代 表 global， 如 
代码 清单 8-5 的 实现 ;bb 图 使 用 了 多 个 池 化 层 ， 这 套 模型 称 为 SAGPool,,，“h” 表 示 
hierarchical， 如 代码 清单 8-6 的 实现 。 在 论文 的 实验 部 分 ， 可 以 友 现 SAGPools 比 较 适 合 小 
图 分 类 ，SAGPoolit 更 适合 大 图 分 类 。 
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得 出 输出 


图 8-6 scatter mean 和 scatter max 原 理 示 意图 


图 卷 积 


图 池 化 





J 分 类 
a) SAGPool, b) SAGPool, 
图 8-7 ”图 分 类 模型 


代码 清单 8-5 SAGPool。 模 型 实现 





Class ModelA(nn.Module): 
def _ init__(self, input_dim, hidden_dim, num_classes=2): 
""" 图 分 类 模型 结构 A 


Arguments: 


input_dim {int} -- 输入 特征 的 维度 
hidden_dim {int} -- 隐藏 层 单元 数 


Keyword Arguments: 


num_classes {int} -- 分 类 类 别 数 (default: {2}) 
super(ModelA, self). _init_ () 
self.input_dim = input_dim 
self.hidden_dim = hidden_dim 
self.num_classes = num_classes 


self.gcn1 = GraphConvolution(input_dim, hidden_dim) 
self.gcn2 = GraphConvolution(hidden_dim, hidden_dim) 
self.gcn3 = GraphConvolution(hidden_dim, hidden_dim) 
self.pool = SelfAttentionPooling(hidden_dim * 3, 0.5) 
self.fc1 = nn.Linear(hidden_dim * 3 * 2, hidden_dim) 
self.fc2 = nn.Linear(hidden_dim, hidden_dim // 2) 
self.fc3 = nn.Linear(hidden_dim // 2, num_classes) 


def forward(self, adjacency, input_feature, graph_indicator): 


gcni = F.relu(self.gcni(adjacency, input_feature) ) 
gcn2 = F.relu(self.gcn2(adjacency, gcn1)) 
gcn3 = F.relu(self.gcn3(adjacency, gcn2)) 


gcn_feature = torch.cat((gcn1, gcn2, gcn3), dim=1) 
pool, pool_graph_indicator, pool_adjacency = self.pool(adjacency, gcn_feature, 
graph_indicator ) 


readout = torch.cat((global_avg_pool(pool, pool_graph_indicator), 
global_max_pool(pool, pool_graph_indicator)), dim=1) 


fci = F.relu(self.fci(readout ) ) 
fc2 = F.relu(self.fc2(fct) ) 
logits = self.fc3(fc2) 


return logits 





模型 SAGPool 实 现 如 代码 清单 8-6 所 示 。 


代码 清单 8-6 ”模型 SAGPool 实现 





class ModelB(nn.Module): 
def _ init__(self, input_dim, hidden_dim, num_classes=2): 
""" 图 分 类 模型 结构 B 


Arguments: 
input_dim {int} -- 输入 特征 的 维度 
hidden_dim {int} -- 隐藏 层 单元 数 


Keyword Arguments: 


num_classes {int} -- 分 类 类 别 数 (default: {2}) 
super(ModelB, self). _init_ () 
self.input_dim = input_dim 
self.hidden_dim = hidden_dim 
self.num_classes = num_classes 


self.gcn1 = GraphConvolution(input_dim, hidden_dim) 
self.pool1 = SelfAttentionPooling(hidden_dim, 0.5) 
self.gcn2 = GraphConvolution(hidden_dim, hidden_dim) 
self.pool2 = SelfAttentionPooling(hidden_dim, 0.5) 
self.gcn3 = GraphConvolution(hidden_dim, hidden_dim) 
self.pool3 = SelfAttentionPooling(hidden_dim, 0.5) 


self.mlp = nn.Sequential( 
nn.Linear(hidden_dim * 2, hidden_dim), 
nn. ReLU(), 


nn.Linear(hidden_dim, hidden_dim // 2), 
nn.ReLU(), 
nn.Linear(hidden_dim // 2, num_classes) ) 


def forward(self, adjacency, input_feature, graph_indicator): 

gcni = F.relu(self.gcni(adjacency, input_feature) ) 

pooli, pooli_graph_indicator, pooli_adjacency = \ 
self.pooli(adjacency, gcni, graph_indicator) 

global_pooli = torch.cat( 
[global_avg_pool(pool1, pooli_graph_indicator), 
global_max_pool(pooli, pooli_graph_indicator)], 
dim=1) 


gcn2 = F.relu(self.gcn2(poolil_ adjacency, poolt)) 
pool2, pool2 graph_indicator, pool2 adjacency = \ 
self.pool2(pooli_adjacency, gcn2, pooli_graph_indicator ) 
global_pool2 = torch.cat( 
[global_avg_pool(pool2, pool2_graph_indicator), 
global_max_pool(pool2, pool2_graph_indicator)], 
dim=1) 


gcn3 = F.relu(self.gcn3(pool2_adjacency, pool2) ) 
pool3, pool3_graph_indicator, pool3_adjacency = \ 
self.pool3(pool2_adjacency, gcn3, pool2_graph_indicator ) 
global_pool3 = torch.cat( 
[global_avg_pool(pool3, pool3_graph_indicator), 
global_max_pool(pool3, pool3_graph_indicator)], 
dim=1) 


readout = global_pooli + global_pool2 + global_pool3 


logits = self.mlp(readout ) 
return logits 


| EHOHRXrR————FHRe—HEePpn~e—eronNm EHO EFHEHO-——7 ———.No.N.2-0-----—-kMnwonninmw—7Z!IZ=F|iQmn—mjrm>omnnnmjmm—nnnnii'wwnanmlinmmnonjnnrenonnnnnwnoronooouoronr-oO0oej>o3p.4- h 
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图 数据 有 看 复 末 的 结构 、 多 样 化 的 属性 类 型 ， 以 及 多 层面 的 学 习 任务 ， 要 想 充 分 利用 
图 数据 的 优势 ， 束 需要 一 种 融 效 的 图 数据 表示 方法 。 与 表示 等 习 在 数据 学 习 中 的 重要 位 置 
一 样 ， 图 表示 学 习 也 成 了 图 学 习 领 域 中 十 分 热门 的 研究 诬 题 。 


作为 近 几 年 深 友 学习 的 新 兴 领 域 ，GNN 在 多 个 图 数据 的 相关 任务 上 部 取得 了 不 俗 的 
成 绩 ， 这 也 显示 出 了 其 强大 的 表示 学 习 能 力 。 坚 无 疑问 ，GNN 的 出 现 给 图 表示 学 习 带 来 
了 新 的 建 梗 方法。 表示 学 习 本 号 具有 十 分 丰 亢 的 内 削 和 外 延 ， 在 建 梗 方法、 学 习 方 式 、 学 
习 目 标 、 学 习 任 务 等 方面 都 有 所 涵 兰 。 这 些 内 容 在 前 面 草 节 中 均 有 曾 述 ， 所 以 本 章 我 们 主 
要 束 基 于 GNN 的 无 监督 图 表示 等 习 进行 讲解 。 这 也 是 出 于 为 一 方面 的 考 上 处 ， 在 实际 的 应 
用 场景 里 面 ， 大 量 的 数据 标签 往往 具有 很 高 的 获取 门槛 ， 研 究 如 何 对 图 数据 进行 高 效 的 无 
监督 表示 和 学习 具有 十 分 重要 的 价值 。 

本 章 内 容 分 3 节 ，9.1 届 主要 从 3 种 建 模 方法 上 对 图 表示 学 习 进 行 对 比 阐 述 。9.2 市 分 别 
从 两 类 无 监督 学 习 目 标 一 香 构 损失 与 对 比 损失 ， 对 基于 GNN 的 无 监督 表示 竺 习 进 行 痢 
述 。9.3 市 为 应 用 实战 ， 介 绍 了 图 数据 表示 学 习 的 一 个 典型 应 用 场景 一 推荐 系统 。 
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在 前 面 我 们 通 第 用 邻接 矩阵 AER 表示 图 的 结构 信息 ， 一 般 来 说 ，A 有 是 一 个 高 维 且 
稀 玩 的 窍 阵 ， 如 来 我 们 耳 接 用 A 去 表示 图 数据 ， 那 么 构 贷 于 A 之 上 的 机 右 学 习 柑 型 将 难以 
适应 ， 相 关 的 任务 学 习 难 以 高 效 。 因 此 ， 我 们 需要 实现 一 种 对 图 数据 更 加 融 效 的 表示 方 
法 。 而 图 表示 学 习 的 主要 目标 正 古 将 图 数据 转化 成 低 维 币 密 的 回 量 化 表示 ， 同 时 确 你 图 数 
据 的 菏 些 性 质 在 问 量 空间 中 也 能 够 得 到 对 应 。 这 里 图 数据 的 表示 可 以 是 节操 层面 的 ， 也 可 
以 是 全 图 层面 的 ， 但 是 作为 图 数据 的 基本 构成 元 系 ， 节 扣 的 表示 等 习 一 卫 是 图 表示 学 习 的 
主要 对 象 。 一 种 图 数据 的 表示 如 末 能 够 包含 丰富 的 语义 信息 ， 那 么 下 游 的 相关 任务 ， 如 所 
分 关 、 边 了 预测、 网 分 类 等 ， 台 都 能 得 到 相当 优秀 的 输入 特征 ， 通 利 在 这 种 情况 下 ， 我 们 下 
接 选 用 线性 分 类 右 对 任务 进行 学 习 。 图 9-1 所 示 为 图 表示 学 习 的 过 程 : 











\Vixd 
表示 学 习 任务 | 节点 级 别 任务 
边 级 别 任务 
图 级 别 任务 
— BIKIA 


图 9-1 图 表示 学 习 的 过 程 


同 表示 学 习 一 样 ， 图 表示 和 学习 的 核心 也 是 研究 数据 的 表示 。 不 同 的 是 ， 图 表示 学 习 的 
研究 对 象 是 图 数据 。 我 们 知道 图 数据 中 强 含 看 丰 明 的 结构 信息 ， 这 本 质 上 对 应 看 图 数据 因 
内 在 关联 而 产生 的 一 种 非 线性 结构 。 这 种 非 线性 结构 在 补充 刻画 数据 的 同时 ， 也 给 数据 的 
aa ee ee eee ae) 

|~ BA ze : 


(1) 将 图 数据 表示 成 线性 空间 中 的 向 量 。 从 工程 上 而 言 ， 这 种 向 量化 的 表示 为 擅长 
处 理 线 性 结构 数据 的 计算 机 体系 提供 了 极 大 的 便利 。 


Q) 为 之 后 的 学 习 任务 襄 定 基础 。 图 数据 的 学 习 任务 种 类 泽 多 ， 有 市 点 层面 的 、 边 
层面 的 ， 还 有 全 图 层面 的 ， 一 个 好 的 图 表示 学 习 方 法 可 以 统一 融 效 地 辅助 这 些 任务 的 相关 
设计 与 学 习 。 

图 表示 学 习 从 方法 上 来 说 ， 可 以 分 为 基于 分 解 的 方法 、 基 于 随机 游 走 的 方法 ， 以 及 基 
于 深度 学 习 的 方法 ， 而 基于 深度 学 习 的 方法 的 典型 代表 就 是 GNN 相 关 的 方法 。 下 面 我 们 
问 顾 一 下 前 两 类 方法 。 














FEARS, KHT ARRAY AEE MRIS, SATA OY HI A 2 
(E TA ARE aE 4 BE OP ORES CBRE ET RR, TR a A E E AS AE 
JR SIS E PANS A ER Se Ea a RE EE BES), — AR 
Ub, IRTIRA ARTA, {Ee HAR ORE EE OT Sa, 因此， 这 类 方法 
共有 很 高 的 时 间 和 空间 复杂 上 度 。 


近 几 年 ， 词 癌 量 方法 在 语言 表示 上 取得 了 很 大 的 成 功 ， 受 该 方法 后 及， 一些 方法 开始 
将 在 图 中 随机 游 走 产生 的 序列 看 作 人 句子， 将 六 点 看 作词 ， 以 此 类 比 词 同 量 方法 从 而 学 习 出 
节点 的 表示 。 典 型 的 方法 有 DeepWalkl! 叶 Node2Vec 等 。 图 9-2 为 DeepWalk 算 法 的 示意 
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图 9-2 ”DeepWalk 算 法 示意 图 


DeepWalk 授 过 随机 游 走 将 图 转化 成 厄 点 序列 ， 设 置 中 心太 点 左右 距离 为 w 的 扩 点 为 上 
FX Ccontext) ， 如 图 9-2 中 的 b 图 所 示 。 同 词 问 量 方法 一 样 ，DeepWalk 本 质 上 建 模 了 中 
心 节 点 与 上 下 文 节 点 之 间 的 共 现 关系 ， 这 种 天 系 的 学 习 也 采用 了 负 采 样 的 优化 手段 ， 如 图 
9-2 中 的 d 图 所 示 。DeepWalk 与 词 回 量 方法 具有 十 分 一 致 的 算法 细 和 有 有， 有 基体 公式 可 以 参见 
第 4 草 中 词 回 量 的 相关 部 分 。 


相 比 基于 分 解 的 方法 ， 基 于 随机 放 走 的 方法 最 大 的 优点 是 通过 将 图 转化 为 序列 的 方式 
实现 了 大 规模 图 的 表示 学 习 。 但 是 这 类 方法 有 两 个 缺点 : 一 是 将 图 转化 成 序列 集合 ， 图 本 
号 的 结构 信息 没有 人 说 充分 利用 ， 二 是 该 学 习 框 架 很 难 目 然 地 融合 图 中 的 属性 信息 进行 表示 


学 习 。 
天 于 GNN 方 法 的 建 模 细 节 ， 本 书 作 为 重要 内 容 在 前 面 的 章节 中 进行 了 前 述 ， 这 里 不 
再 疆 述 。 通 过 之 前 的 学 习 ， 我 们 可 以 知道 基于 GNN 的 图 表示 学 习 具 有 以 下 几 点 优势 : 


(1) JE% AAAS SAM Seed, MW EASIER BA 
信息 与 属性 信息 单独 进行 处 理 。 


(2) GNN 本 号 作为 一 个 可 导 的 模 匡 ， 能 够 能 入 到 任意 一 个 文 持 病 对 如 学 习 的 系统 中 
去 ， 这 种 特性 使 得 其 能 够 与 各 个 层面 的 有 监督 学 习 任 务 进行 有 机 结合 《或 者 以 微调 学 习 的 
形式 进行 结合 ) ， 萤 习 出 更 加 适应 该 任务 的 数据 表示 。 


(3) GNN 的 很 多 模型 如 GraphSAGE、MPNN 等 都 是 支持 归纳 学 习 的 ， 多 数 情 况 下 对 
于 新 数据 的 表示 学 习 可 以 直接 进行 预测 ， 而 不 必 像 之 前 的 多 数 方法 那样 重新 训练 一 次 。 





(4) 相 较 于 分 解 类 的 方法 只 能 适应 小 图 的 学 习 ，GNN 你 证 了 算法 在 工程 上 的 可 行 
性 ， 也 能 适应 大 规模 图 的 学 习 任务 。 


综 上 所 述 ， 基 于 GNN 的 相关 方法 具有 强大 的 学 习 能 力 与 广泛 的 适应 性 ， 是 图 表示 学 
习 重 要 的 代表 性 方法 。 
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和 插 信 强大 的 病 对 妆 学 习 能 力 ，GNN 这 类 模型 可 以 非常 友好 地 支持 有 监督 的 学 习 方 
式 。 但 是 GNN 本 和 吴 作 为 一 种 香 要 的 对 图 数据 进行 表示 等 习 的 框 保 ， 只 要 与 相应 的 无 监督 
损失 函数 结合 起 来 就 能 实现 无 监督 图 表示 学 习 。 无 监督 学 习 的 主体 在 于 损失 函数 的 设计 ， 
这 里 我 们 分 两 类 损失 函数 分 列 进行 介绍 : 基于 重 构 损失 的 GNN 和 基于 对 比 损失 的 GNN。 





9.2.1 基于 重 构 损失 的 GNN 


类 比 目 编码 硕 的 思路 ， 我 们 可 以 将 节点 之 间 的 邻接 关系 进行 重 构 学 习 ， 为 此 可 以 定义 
如 下 的 图 日 编码 器 (Graph Auto Encoder) : 


Z = GNN(X, A) (9.1) 


A 


A=o(ZZ') (9.2) 


其 中 ，Z 是 所 有 节点 的 表示 ， 这 里 借助 GNN 模 型 同时 对 图 的 属性 信息 与 结构 信息 进行 


编码 学 习 。 才 是 重 构 之 后 的 邻接 矩阵 ， 这 里 使 用 向 量 的 内 积 来 表示 节点 之 间 的 邻接 关 
Ro AA Fate an Wy Be ei KE SUM F: 


lb sei a ||A—A]|? ( I.3 ) 


HP OP res A A, GNNE A Sy RART RA BMRA, RO BE 


HRR ABEREA AEIR PE FA ZEREA, BUMS BODES ARE. AE, 
N Y EGNN AEEA EE OP A EN EE Sas PE, BOT DA R RN 
ETHRADR Af. EGO, RATE AS) GRR tS a BE, aD A I EAT — FE IDE 
Bi, HAE EA MOR EY Bi A EE A is EH TAKE IRA. AR PREE 
不 限于 下 和 面 所 列 的 一 种 或 多 种 : 


C1) 对 原 图 数据 的 特征 和 滤 阵 X 适 当 增 加 随机 品 声 或 进行 置 零 处 理 ; 
(2) 对 原 图 数据 的 邻接 矩阵 A 删除 适当 比例 的 边 ， 或 者 修改 边 上 的 权 草 值 。 
另外 ， 也 可 以 借鉴 其 他 目 编码 右 中 的 设计 思路 。 接 下 来 ， 我 们 看 看 比较 重要 的 变 分 图 
自 编 码 器 (Variational Graph Autoencoder, VGAE) {中 。VGAE 的 基础 框架 和 变 分 自 编码 


名 一 样 ， 不 同 的 是 使 用 了 GNN 来 对 图 数据 进行 编码 学习 。 下 面 分 3 个 方 同 来 介绍 其 基础 框 
染 ， 包 括 推断 模型 (编码 器 〉、 生 成 模型 (解码 缮 ) . TAR PRB 











1. 推 类 模型 
N 
gq(Z|X,A)=| | g(z; |X, A) (9.4) 
i=] 
Gs; |A,A)= N (z: | M; diag(o’)) (9.5 ) 


与 VAE 不 同 的 是 ， 这 里 我 们 使 用 两 个 GNN 对 h、c 进 行 拟 合 : 


u = GNN,(X, 4), logo = GNN (X, A) (9.6) 
2. 生 成 模型 


N N 
p(4|Z)=]| [| |p(4, 1z,,z,) (9.7 ) 
i=l j=l 
P(A, =1|z,,z,) =o(z;Z,) (9.8 ) 
这 里 也 简单 使 用 了 两 个 节点 表示 辐 量 的 内 积 来 拟 合 邻接 关系 。 
3.4K BL 
L = base nF Li 一 -zx llogp(4 | Z)| 7 KLl{q(Z | X, A)|| p(Z)] ( a9 ) 


同样 地 ， 隐 变量 z 的 先 验 分 布 选 用 标准 正 态 分 布 : 
p(Z)= | | pe) 4] VG, 0.) (9.10) 


VAE 与 GNN 的 结合 ， 不 仅 可 以 被 用 来 学 习 图 数据 的 表示 ， 其 更 独特 的 作用 是 提供 了 
一 个 图 生成 模型 的 框 染 ， 能 够 在 相关 图 生成 的 任务 中 得 到 应 用 ， 如 引文 [7][8]， 用 其 对 化 


学 分 子 进行 指导 设计 。 


9.2.2 基于 对 比 损 失 的 GNN 


对 比 损失 是 无 监督 表示 学 习 中 为 一 种 十 分 第 见 的 损失 函数 。 通 第 对 比 损失 会 设置 一 个 
评分 函数 D(.) ， 该 得 分 函数 会 提高 “真实 ”( 或 正 ) 样本 (对 ) 的 得 分 ， 降 低 “ 假 ”( 或 
Ti) 样本 (对 ) 的 得 分 。 


关 比 词 同 量 ， 我 们 将 对 比 损失 的 落脚 点 放 到 词 与 上 下 文 上 。 词 是 表示 学 习 的 研究 主 
体 ， 这 里 目 袋 代表 图 数据 中 的 节点 ， 上 下 文 代表 与 节 扣 有 对 应 天 系 的 对 象 。 通 种 情况 下 ， 
图 里 的 上 下 文 从 小 到 大 依次 可 以 是 节操 的 邻居 、 市 点 所 处 的 子 图 、 全 图 。 作 为 市 点 与 上 下 
文 之 间 和 存在 的 固有 关系 ， 我 们 布 望 评分 函数 据 局 市 点 与 上 下 文 对 的 得 分 ， 同 时 降低 市 反 与 
非 上 下 文 对 的 得 分 。 可 以 表示 为 式 (9.11) : 


L, =—log(D(;, c)) + log(D(z;, €)) (9.11) 

其 中 c 表 示 上 下 文 的 表示 向 量 ， C 表示 非 上 下 文 的 表示 向 量 。 下 面 我 们 依次 来 看 看 该 
损失 函数 在 不 同上 下 文 时 的 具体 形式 。 

1. 邻 大 作为 上 下 文 

如 果 把 邻居 作为 上 下 文 ， 那 么 上 述 对 比 损失 就 在 建 模 节点 与 邻居 节点 的 共 现 关 系 。 在 
GraphSAGE 的 论文 中 就 接 述 了 这 样 一 种 无 监督 学 习 方 式 ， 与 DeepWalk 一 样 ， 我 们 可 以 将 
在 随机 游 走时 与 中 心 节点 vi 一 起 出 现在 固定 长 度 窗口 内 的 节点 wj 视 为 邻居 ， 同 时 通过 负 采 


样 的 手段 ， 将 不 符合 该 关系 的 节点 作为 负 样本 。 与 DeepWalk 不 同 是 ， 节 点 的 表示 学 习 模 
型 仍 使 用 GNN， 即 : 


Z = GNN(X, A) (9.12) 





L,, = logok: g) + E, rool ECR: Z,,)) (9.13) 


这 里 的 p 是 一 个 关于 节点 出 现 概 率 的 负 采 样 分 布 ， 得 分 函数 使 用 向 量 内 积 加 sigmoid 
函数 ， 将 分 数 限制 在 0， 匡 内 。 这 个 方法 在 优化 目标 上 与 图 自 编码 器 基本 等 同 ， 但 是 这 种 
负 采 样 形式 的 对 比 优化 并 不 需要 与 图 自 编码 器 一 样 显 式 地 解码 出 邻接 矩阵 4 ， 由 于 44 破 
坏 了 原始 邻接 和 矩阵 的 稀疏 性 ， 因 此 该 方法 不 需要 承担 O(N?) 的 空间 复杂 度 。 


2 于 图 作为 上 下文 


将 邻 大 作为 上 下 文 时 ， 强 调 的 是 市 反之 间 的 共 现 关系 ， 这 种 共 现 关系 更 多 反映 了 图 中 
市 扩 间 的 距离 了 远近， 缺乏 对 市 点 结构 相似 性 的 捕 提 。 而 通常 市 点 局 部 结构 上 的 相似 性 是 市 
点 分 类 任务 中 一 个 比较 关键 的 因素 站。 比如 图 上 两 个 相距 很 远 的 节点 如 果 具 有 一 样 的 子 图 
结构 ， 基 于 共 现 关系 的 建 模 方法 就 难以 有 效 刻画 这 种 结构 上 的 对 等 性 。 因 此 ， 论 文 "就 
提出 了 二 接 将 子 图 作为 一 种 上 下 文 进行 对 比 学 习 。 具 体 子 图 的 定义 如 图 9-3 所 示 : 








上 上 下文 预测 


com 





ie node 
= Context anchor nodes 


图 9-3 ”将 子 图 作为 上 下 文 进行 预测 中 


对 于 一 个 中 心 节点 ， 如 图 9-3 中 的 红色 节点 所 示 ， 我 们 用 一 个 GNN 在 其 K 阶 子 图 上 提 
取 其 表示 向 量 ， 同 时 我 们 将 处 于 中 心 节点 II-hop 与 rz-hop 之 间 的 节点 定义 为 该 中 心 节点 的 
上 下 文 锚 点 ， 如 图 9-3 所 示 。 设 K=2，ri=1，r=4， 我 们 用 另 一 个 GNN 来 提取 每 个 节点 作为 
上 下 文 锚 点 时 的 表示 同 量 ， 同 时 为 了 得 到 一 个 总 的 、 固 定 长 度 的 上 下 文 表示 同 量 ， 我 们 使 
用 读 出 机 制 来 聚合 上 下 文 锚 点 的 表示 同 量 。 用 公式 表示 如 下 : 


= GNN(X, Ay. Z context = GN Noama A) ( 9.14 ) 
ci = R({ZeontexLi], VV; 是 vi 的 上 下 文 锚 点 }) (9.15) 
= log(1—o(z; ¢)) + log(o(z; Cr; 2 ))) (9.16) 

3. 全 图 作为 上 下 文 


在 引文 (站 中 提出 了 Deep Graph Infomax (DGI) (1 的 方法 对 图 数据 进行 无 监督 表示 学 
习 。 方 法 实现 了 一 种 节 扣 与 全 图 之 间 的 对 比 损失 的 学 习 机 制 。 其 具体 做 法 如 下 : 


Z = GNN(X, 4), Z = GNN(Xeurrupts Acurrupt) (9.17) 
s = R({z, Vv, € V3) (9.18 ) 
= log(1—D(z,, s)) + log(D(z,, $) (9.19 ) 





BAN I AAKER, mX EET AL, FEE Xepe Acurrupt? 其 
体 的 加 品 方 法 上 文中 已 有 概括 。 然 后 将 这 两 组 图 数据 送 到 同一 个 GNN 模 型 中 进行 学 习 。 
为 了 得 到 图 的 全 局 表示 ， 我 们 使 用 读 出 机 制 对 局 部 市 点 的 信息 进行 从 合 。 在 最 后 的 损失 函 
数 中 ， 作 者 固定 了 全 图 表示 ， 对 市 把 进行 了 负 采 样 的 对 比 学 习 。 这 样 处 理 是 为 了 方便 后 续 
的 节点 分 类 任务 。 从 互信 息 " 和 3 的 角度 来 看 ， 通 过 一 个 统一 的 全 局 表示 最 大 化 全 图 与 节 


点 之 加 的 互信 息 ， 这 样 可 以 在 所 有 节点 的 表示 之 则 建立 起 一 层 更 直接 的 联系 。 比 如 上 和 面 提 
到 的 相距 较 远 的 节点 之 间 的 结构 相似 性 的 学 习 问 题 ， 这 种 设计 可 以 保障 该 性 质 的 高 效 学 
习 。 图 9-4 为 上 述 过 程 的 示意 图 : 


currupt 





CX sey 9 R (Z, r 


图 9-4 We GERM RASS LAL! 


Py AN fe = Tn ee) RR REN EAS A, es BETH ie E 
的 表示 SORA, B: 


L, = E, e ¢log(l—D(z, s)) + E, e ¢,log(D(z, s)) (9.20 ) 
此 时 ， 由 于 是 全 图 层面 的 任务 ， 所 以 我 们 希望 通过 上 式 让 全 图 与 其 所 有 局 部 节点 之 间 
实现 互信 息 最 大 化 ， 也 即 获得 全 图 最 有 效 、 最 具 代表 性 的 特征 ， 这 对 图 的 分 类 任务 十 分 有 
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9.3 FEF AE Aa a EE AR 


PEAR SEF E A gS a SBI el SEE ESS IE Be ERREEN E 
用 户 与 商品 之 间 的 关系 ， 这 里 我 们 以 简化 后 的 用 户 对 丙 品 的 评分 为 例 进行 介绍 ， 如 图 9-5 
假设 用 户 与 商品 之 间 的 区 互 行为 只 存在 评分 ， 分 值 从 1 分 到 5 分 。 如 朱 用 户 u 对 商品 v 进 行 评 
分 ， 评 分 为 r， 台 是 说 用 户 u 与 商品 v 之 间 存 在 一 条 边 ， 边 的 闫 型 为 r， 其 中 rER。 基 于 这 种 
交互 关系 对 用 户 进 行商 品 推 荐 实际 上 就 是 要 预测 哪些 商品 与 用 户 之 间 可 能 存在 边 ， 这 样 的 
问题 称 为 边 预 测 问题 。 对 于 这 种 按 预 测 问题 ， 我 们 将 其 看 作 宅 阵 补 全 问题 ， 用 户 与 商品 之 
间 的 交互 行为 构成 了 一 个 二 部 图 ， 可 以 通过 用 户 与 两 品 的 邻接 算 阵 表示 为 A， 算 阵 中 的 值 
束 是 评分 ， 推 荐 束 是 要 对 和 窍 阵 没有 评分 的 位 置 进行 预测 。 





Pel A TEE 





评分 矩阵 4 


二 部 图 AF 
9-5 ”基于 图 自 编码 器 的 推荐 上 


图 9-5 为 基于 图 目 编 码 需 的 推荐 系统 的 架构 图 。 如 图 所 示 ， 首 先 将 用 户 -了 商品 窍 阵 转化 
成 用 户 - 了 商品 二 部 图 ， 然 后 使 用 图 上 自 编码 器 对 二 部 图 进行 建 模 ， 这 里 使 用 GCN 作 为 编码 
髓 ， 然 后 通过 解码 需 对 邻接 窍 阵 中 的 边 信 息 进 行 重 构 ， 由 此 完成 边 预 测 的 任务 。 对 于 邻接 
算 阵 A 按照 不 同 的 评分 fr 进行 分 解 ， 可 以 得 到 每 个 评 r 分 对 应 的 一 个 邻接 矩阵 A,.， 它 在 评分 
为 V 的 位 置 上 值 为 1， 人 否则 为 0。 请 注意 ， 在 这 里 将 不 同 的 评分 当 作 不 同 的 关系 进行 处 理 ， 
而 不 是 当 作 边 上 的 属性 进行 预测 。 接 下 来 ， 使 用 R-GCN 双 重 聚 合 的 思路 对 市 点 的 表示 进 
We ee Seen ree Tht em 
(9.21) 所 示 : 





] 
h, =o(Age{ >》 —Wh,Yr € RX) (9.21) 
vjeN® Cisr 
其 中 W, 是 每 类 评分 对 应 的 权重 参数 ，cj 是 一 个 归 一 化 参数 ， 可 以 选择 |Nj| 或 者 


YININ,|。 第 二 重 聚 合 时 的 函数 为 Agg， 可 以 选择 拼接 、 求 和 或 者 更 复杂 的 聚合 函数 ， 代 
码 清单 9-1 是 基于 拼接 的 编码 需 实 现 ， 代 但 清单 9-2 是 基于 求 和 的 编码 右 实 现 。 


代码 清单 9-1 AT PERAI hA 





Class StackGCNEncoder(nn.Module): 


def _ init__(self, input_dim, output_dim, num_support, 
use_bias=False, activation=F.relu): 
""" 对 得 到 的 每 类 评分 使 用 级 联 的 方式 进行 聚合 


Args: 
input_dim (int): 输入 的 特征 维度 
output_dim (int): 输出 的 特征 维度 ， 需 要 output_dim % num_support = 0 
num_support (int): 评分 的 类 别 数 ， 比 如 1~5 分 ， 值 为 5 
use_bias (bool, optional): 是 人 否 使 用 偶 置 . Defaults to False. 
activation (optional): 激活 函数 ,， Defaults to F.relu. 
super (StackGCNEncoder, self).__init__() 
self.input_dim = input_dim 
self.output_dim = output_dim 
self.num_support = num_support 
self.use_bias = use_bias 
self.activation = activation 
assert output_dim % num_support == 0 
self.weight = nn.Parameter(torch.Tensor(input_dim, output_dim) ) 
if self.use_bias: 
self.bias = nn.Parameter(torch.Tensor(output_dim, )) 
self.reset_parameters() 
self.weight = self.weight.view(input_dim, output_dim // 5, 5) 


def reset_parameters(self): 
init.kaiming_uniform_(self.weight ) 
if self.use_bias: 
init.zeros_(self.bias) 


def forward(self, user_supports, item_supports, user_inputs, item_inputs): 
"""'StackGCNEncoder it ig 44 


Args: 
user_supports (list of torch.sparse.FloatTensor): 
归 一 化 后 每 个 评分 等 级 对 应 的 用 户 与 商品 邻接 矩阵 
item_supports (list of torch.sparse.FloatTensor ) : 
YA He a BEN OF ay 5 BOT Di FY PT cits 5 A RR ERRE RE 
user_inputs (torch.Tensor): 用 户 特征 的 输入 
item_inputs (torch.Tensor): 商品 特征 的 输入 











Returns: 
[torch.Tensor]: 用 户 的 隐 层 特征 
[torch.Tensor]: 商品 的 隐 层 特征 

assert len(user_supports) == len(item_supports) == self.num_support 

user_hidden = [] 

item_hidden = [] 

for i in range(self.num_support): 
tmp_u = torch.matmul(self.weight[..., i], user_inputs) 
tmp_v = torch.matmul(self.weight[..., i], 1tem_inputs) 
tmp_user_hidden = torch.sparse.mm(user_supports[i], tmp_v) 
tmp_item_hidden = torch.sparse.mm(item_supports[i], tmp_u) 
user_hidden.append(tmp_user_hidden ) 
item_hidden.append(tmp_item_hidden) 


user_hidden 
item_hidden 


= torch.cat(user_hidden, dim=1) 
= torch.cat(item_hidden, dim=1) 
user_outputs 
item_outputs 


= self.activation(user_hidden) 
= self.activation(item_hidden) 
if self.use_bias: 

user_outputs += self.bias 

item_outputs += self.bias_item 


return user_outputs, item_outputs 





代码 清单 9-2 AEP OR AE St 





Class SumGCNEncoder(nn.Module): 
def _ init__(self, input_dim, output_dim, num_support, 
use_bias=False, activation=F.relu): 
""" 对 得 到 的 每 类 评分 使 用 求 和 的 方式 进行 聚合 


Args: 
input_dim (int): 输入 的 特征 维度 
output_dim (int): 输出 的 特征 维度 ， 需 要 output_dim % num_support = 0 
num_support (int): 评分 的 类 别 数 ， 比 如 1~5 分 ， 值 为 5 
use_bias (bool, optional): 是 否 使 用 偶 置 . Defaults to False. 
activation (optional): WSR. Defaults to F.relu. 
super(SumGCNEncoder, self). _init_ () 
self.input_dim = input_dim 
self.output_dim = output_dim 
self.num_support = num_support 
self.use_bias = use_bias 
self.activation = activation 
self.weight = nn.Parameter(torch.Tensor(input_dim, output_dim * num_support)) 
if self.use_bias: 
self.bias = nn.Parameter(torch.Tensor(output_dim, )) 
self.reset_parameters() 
self.weight = self.weight.view(input_dim, output_dim, 5) 


def reset_parameters(self): 
init.kaiming_uniform_(self.weight) 
if self.use_bias: 
init.zeros_(self.bias) 


def forward(self, user_supports, item_supports, user_inputs, item_inputs): 
"""SumGCNEncoder 计 算 逻 辑 


Args: 
user_supports (list of torch.sparse.FloatTensor): 
归 一 化 后 每 个 评分 等 级 对 应 的 用 户 与 商品 邻接 矩阵 
item_supports (list of torch.sparse.FloatTensor ) : 
VA Vea BER EP SEO DZ A m A $e BE 
user_inputs (torch.Tensor): 用 户 特征 的 输入 
item_inputs (torch.Tensor): 商品 特征 的 输入 














Returns: 
[torch.Tensor]: 用 户 的 隐藏 层 特征 
[torch.Tensor]: 商品 的 隐藏 层 特征 
assert len(user_supports) == len(item_supports) == self.num_support 
user_hidden = 0 
item_hidden = 0 
for i in range(self.num_support): 
tmp_u = torch.matmul(self.weight[..., 1], user_inputs) 
tmp_v = torch.matmul(self.weight[..., i], 1tem_inputs) 
tmp_user_hidden = torch.sparse.mm(user_supports[i], tmp_v) 
tmp_item_hidden = torch.sparse.mm(item_supports[i], tmp_u) 
user_hidden += tmp_user_hidden 
item_hidden += tmp_item_hidden 


user_outputs 
item_outputs 


= self.activation(user_hidden) 
= self.activation(item_hidden) 
if self.use_bias: 

user_outputs += self.bias 

item_outputs += self.bias_item 


return user_outputs, item_outputs 





上 面 得 到 的 GCN 编 码 特征 需要 再 经 过 一 个 非 线性 变换 以 得 到 最 终 的 特征 ， 如 式 
用 户 与 商品 可 以 共享 相同 的 参数 W， 也 可 以 使 用 不 同 的 变换 参数 ， 如 代码 
清单 9-3 所 示 。 


u;=o(Wh, + b) 


(9.22 ) 


代码 清单 9-3” 非 线性 变换 





class FullyConnected(nn.Module): 


def _ init__(self, input_dim, output_dim, 
use_bias=False, activation=F.relu, 
share_weights=False): 
Wud 非 线 性 变换 层 
Args: 
input_dim (int): 输入 的 特征 维度 
output_dim (int): 输出 的 特征 维度 ， 需 要 output_dim % num_support = 0 
use_bias (bool, optional): 是 否 使 用 偶 置 . Defaults to False. 
activation (optional): 激活 函数 ,， Defaults to F.relu. 
share_weights (bool, optional): 用 户 和 商品 是 否 共享 变换 权 值 ， Defau1lLts to False. 
super(FullyConnected, self). init () 
self.input_dim = input_dim 
self.output_dim = output_dim 
self.use_bias = use_bias 
self.activation = activation 
self.share_weights = share_weights 
self.linear_user = nn.Linear(input_dim, output_dim, bias=use_bias) 
if self.share_weights: 
self.linear_item = self.linear_user 
else: 
self.linear_item = nn.Linear(input_dim, output_dim, bias=use_bias) 
def forward(self, user_inputs, item_inputs): 
Wit "前 向 传播 
Args: 
user_inputs (torch.Tensor): 输入 的 用 户 特征 
item_inputs (torch.Tensor): 输入 的 商品 特征 
Returns : 
[torch.Tensor]: 输出 的 用 户 特征 
[torch.Tensor]: 输出 的 商品 特征 


user_outputs = self.linear_user(user_inputs) 
item_outputs = self.linear_item(item_inputs) 
if self.activation: 

user_outputs = 


= self.activation(user_outputs) 
item_outputs = 


self.activation(item_outputs) 


return user_outputs, item_outputs 





这 样 就 得 到 了 用 户 和 商品 的 表达 ， 下 面 我 们 根据 用 户 与 商品 的 表达 ， JEL HT a SEH 


RIER, HPA PET 
具体 来 说 就 


A 
p(A; | 
中 d 为 编码 特 


这 个 值 通 
mae 


级 ， ria BOY BEATE I} Sr BORE AT BEA 这 里 将 这 个 重 构 转 换 为 


是 ， 根 据 用 户 和 商品 的 特征 得 到 条 件 概 率 


过 softmax 归 一 化 得 到 ， 如 式 〈9.23) 所 示 ， 其 中 Q.ERW4， 其 


P(A, =r) -一 一 一 (9.23 ) 


seER 
HR BULA UG, APPAR RABI, WR (9.24) 所 示 : 
R 
L=- > 2 I[r= 4 log p(A, =r) (9.24 ) 
i, jf;Qy=1 r=l 


下 面 根 据 式 (9.23) RSH, A STEP SCO, KH Set tte ZT) a Se He Ee 
BAY Gd Cu)» id Cv)» D 的 RDF 形 式 ， 其 中 的 user_indices 束 是 所 有 RDEF 的 起 点 ， 如 


代码 清单 9-4 所 示 : 
代码 清单 9-4 ”解码 器 





class Decoder(nn.Module): 
def _ init__(self, input_dim, num_classes): 
Wit "解码 器 


Args: 
input_dim (int): 输入 的 特征 维度 
num_classes (int): 评分 级 别 总 数 ，eg. 5 
super(Decoder, self). _init_ () 
self.input_dim = input_dim 
self.num_classes = num_classes 
weights = [] 
for i in range(self.num_classes): 
weight = nn.Parameter(torch.Tensor(input_dim, input_dim)) 
weights.append(weight) 
self.reset_parameters() 


def reset_parameters(self): 
for weight in self.weights: 
init.kaiming_uniform_(weight) 


def forward(self, user_inputs, item_inputs, user_indices, item_indices): 


wi "计算 非 归 一 化 的 分 类 输出 


Args: 
user_inputs (torch.Tensor): 用 户 的 隐藏 层 特征 
item_inputs (torch.Tensor): 商品 的 隐藏 层 特征 
user_indices (torch.LongTensor): 
所 有 交互 行为 中 用 户 的 id 索引 ， 与 对 应 的 item_indices 构 成 一 条 边 , shape= (num_edges, ) 
item_indices (torch.LongTensor): 
所 有 交互 行为 中 商品 的 id 索引 ， 与 对 应 的 user_indices 构 成 一 条 边 , shape= (num_edges, ) 





Returns : 

[torch.Tensor]: 未 归 一 化 的 分 类 输出 ，shape=(num_edges，num_classes ) 
user_inputs 
item_inputs 
outputs = [] 
for weight in self.weights: 

tmp = torch.matmul(user_inputs, weight) 

out = tmp * item_inputs 


user_inputs[user_indices ] 
item_inputs[item_indices | 


outputs.append(out ) 


outputs = torch.cat(outputs, dim=1) 
return outputs 
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第 10 章 ”GNN 的 应 用 简介 


由 于 图 数据 具有 极其 广泛 的 使 用 场景 ，GNN 这 项 技术 的 相关 应 用 近年 来 也 得 到 了 长 
足 发 展 。 作 为 全 书 的 结尾 ， 本 半 就 以 GNN 的 应 用 来 阐述 其 研究 现状 与 未 来 趋势 。 


10.1 节 对 GNN 的 应 用 作出 了 一 个 概括 性 的 简 述 ; 10.2 节 以 3 个 具体 的 应 用 案例 来 说 明 
GNN 的 相关 优势 ，10.3 节 我 们 对 GNN 研 究 的 未 来 展望 进行 讨论 。 


10.1 GNN 的 应 用 简 述 


GNN 的 适用 范围 非常 广泛 ， 既 可 以 处 理 具 有 显 式 关联 结构 的 数据 ， 如 药物 分 子 、 电 
路 网 络 等 ， 也 可 以 处 理 具有 隐 式 关联 结构 的 数据 ， 如 图 像 、 文 本 等 。 近 年 来 ，GNN 被 用 
于 解决 各 行 各 业 的 问题 ， 如 生物 化 学 领域 中 的 分 子 指纹 识别 、 药 物 分 子 设 计 、 疾 病 分 类 
等 ， 交 通 领 域 中 对 交通 需求 的 预测 、 对 道路 速度 的 预测 ， 计 算 机 图 像 处 理 领 域 中 的 目标 检 
测 、 视 觉 推理 等 ， 目 然 语 言 处 理 领 域 中 的 实体 关系 抽取 、 关 系 推 理 等 。 在 引文 [中 分 成 6 
Ale]: 目 然 语 言 处 理 、 计 算 机 视觉 、 目 然 科 学 研究 、 知 识 图 谐 、 组 合 优化 、 图 生成 ， 对 
GNN 的 应 用 做 出 了 较为 全 面 且 细致 的 归纳 总 结 。 


纵 观 GNN 的 各 类 应 用 ，GNN 表 现 出 了 如 下 3 个 优势 : 


(1) GNN 具 有 强大 的 图 数据 拟 合 能 力 。 作 为 一 种 建立 在 图 上 的 端 对 端 学 习 框 染 ， 
GNN 展 示 出 了 强大 的 图 数据 拟 合 能 力 。 图 数据 是 科学 与 工程 学 领域 中 一 种 十 分 常见 的 数 
所 研究 对 象 ， 因 此 ，GNN 也 被 应 用 到 了 很 多 相关 场景 下 ， 并 且 痢 取得 了 不 错 的 效果 。 通 
名 这 些 应 用 均 会 利用 GNN 去 拟 合 研究 对 象 的 一 些 理化 性 质 ， 从 而 指导 或 加 速 相 应 的 科研 
与 开 友 工 作 。 比 如 引文 [2] 利 用 GNN 去 拟 合 两 图 中 市 点 对 的 组 合 性 质 ， 从 而 提升 乍 日 质 相 
互 作用 操 预 测 的 精度 ， 而 重 日 质 相 互 作用 点 预测 是 药物 分 子 友 现 与 设计 工作 的 重要 构成 部 
分 ; 引文 [3] 将 高 频 电 路 抽象 成 图 数据 ， 利 用 GNN 去 拟 合 其 电磁 学 性 质 ， 相 较 于 严格 的 电 
WSEAS, ATA AHI LR CEC MSGS A) 的 设计 工作 。 


(2) GNN 具 有 强大 的 推理 能 力 。 计 算 机 要 完成 推理 任务 ， 离 不 开 对 语义 实体 的 识别 
以 及 实体 之 则 关系 的 抽取 ，GNN 理 所 当然 地 被 应 用 到 了 很 多 推理 任务 的 场景 中 去 。 相 较 
于 之 前 大 多 基于 关系 三 元 组 的 建 模 方式 ，GNN 能 够 对 表征 语义 关系 的 网 络 进行 整体 性 的 
建 模 ， 习 得 更 加 复杂 与 丰 曙 的 语义 信息 ， 这 对 提升 推理 任务 的 效果 大 有 祷 荔 。 深 度 学 习 经 
过 近 几 年 的 发 展 ， 在 许多 识别 相关 的 任务 上 都 取得 了 前 所 未 有 的 成 果 ， 基 于 此 ， 需 要 更 深 
程度 地 理解 数据 的 推理 任务 被 提出 ， 比 如 计算 机 视觉 中 的 视觉 问答 (Visual Question 
Answering) 、 视 党 推理 (Visual Reasoning) ， 目 然 语言 处 理 中 的 多 跳 推理 (Multi-hop 
Reasoning) 等 。 随 看 GNN 的 流行 ， 很 多 工作 也 壬 试 将 GNN 以 一 种 病 对 病 的 形式 藤 入 到 学 
习 系 统 中 去 ， 以 提升 相关 任务 的 效果 。 我 们 举 两 个 例子 来 说 明 : 一 是 在 基于 事实 的 视觉 回 
答 (Fact-based Visual Question Answering) 中 ， 问 题 中 不 再 直接 包含 答案 内 容 ， 需 要 学 习 
系统 经 过 推理 将 问题 中 的 事实 天 系 正 确 映 射 到 答 宁 中 的 实体 上 。 在 引文 [4] 中 通过 引入 
GCN 同 时 建 模 多 条 事实 来 提高 对 答 守 推 理 的 正确 性 ， 这 一 方法 在 相关 数据 集 上 取得 了 极 
大 的 效果 提升 。 二 是 多 跳 推理 ， 相 比 于 之 前 的 阅读 理解 任务 ， 多 跳 推理 需要 跨越 多 个 段落 
甚至 多 个 文档 来 寻找 实体 之 间 的 多 跳 关 系 ， 这 是 一 个 更 加 开放 、 更 加 复杂 的 推理 任务 。 在 
引文 [5] 中 通过 骨 入 GNN， 构 造 了 一 个 抽取 加 推理 的 双 线 学 习 框 架 ， 使 得 学 习 系 统 在 可 解 
释 性 提升 的 同时 也 在 相关 数据 集 上 获得 了 极 大 的 效果 提升 。 


(3) GNN 与 知识 图 谱 结 合 ， 可 以 将 先 验 知识 以 端 对 端的 形式 高 效 地 骸 入 到 学 习 系 统 
中 去 。 人 类 在 学 习 后 习 得 的 知识 ， 会 被 大 脑 神 经 系统 进行 系统 的 加 工 并 存储 起 来 ， 作 为 之 
后 相关 活动 友 生 时 的 一 种 先 验 知 识 噩 效 地 提升 人 类 的 应 对 表现 ， 并 且 往 往 知识 之 间 会 产生 
各 种 关联， 形成 “知识 地 图 *。 这 种 机 制 对 应 看 数据 科学 领域 中 一 些 技 术 如 知识 图 详 的 广泛 
应 用 。 从 数据 建 模 的 层面 来 看 ， 这 些 知 识 〈 或 者 规则 、 经 验 、 第 识 、 事 实 守 ) 为 模型 所 供 
本 据 外 的 相关 信息 ， 可 以 有 效 提升 学 习 系 统 的 效果 。 作 为 一 种 问 对 端的 图 数据 学 习 柑 型 ， 
GNN 结 合 知 识 图 详 ， 可 以 将 完 验 知识 融 效 地 区 入 到 任意 一 种 学 习 系 统 中 去 ， 从 而 提升 任 
务 效 果 。 比 如 引文 [6] 在 和 零 样 本 学 习 任 务 中 利用 GCN 对 词汇 网 络 (WordNet) HEITER, SK 























现 了 关 别 之 间 的 语义 关系 到 其 视觉 表示 上 的 迁移 ， 从 而 大 大 提升 视觉 模 型 在 一 些 完 全 不 所 
供 训练 样本 的 类 列 上 的 分 基准 确 率 。 引 文 [7] 通 过 补充 额外 的 知识 图 谐 信息 ， 将 知识 图 谱 
与 用 户 - 丙 品 二 部 图 构成 一 种 合成 的 独 结构 ， 然 后 利用 GNN 进 行 推荐 任务 建 模 ， 同 时 增强 
了 推荐 系统 的 准确 率 、 多 样 性 与 可 解释 性 。 


忆 的 来 说 ， 正 是 由 于 GNN 强 大 而 灵活 的 特性 ， 使 得 其 不 礼 是 在 图 数据 本 里 的 学 习 任 
务 上 ， 还 是 被 以 病 对 器 的 形式 融合 到 其 他 的 学 习 任 务 中 ， 痢 能 表现 出 自己 独特 的 优势 。 当 
然 ， 上 和 面 一 以 概 之 的 优势 需要 与 实际 场景 进行 深度 灯 合 ， 在 其 体 的 应 用 中 寻找 精确 的 定 
位 ， 只 有 这 样 才能 在 相关 场景 中 获得 最 优 的 效果 。 


10.2 GNN 的 应 用 案例 


本 节 将 从 3D 视 觉 、 基 于 社交 网 络 的 推荐 系统 、 视 党 推理 3 个 方面 介绍 GNN 的 应 用 和 
例 ， 和 希望 信 由 这 3 个 应 用 场景 能 够 为 大 家 深入 而 具体 地 展示 GNN 的 撤 术 特点 及 优势 。 


10.2.1 3D 视 觉 


继 若 积 神经 网 络 在 2D 视 觉 上 获得 前 所 未 有 的 成 功 之 后 ， 近 几 年 ， 如 何 让 计算 机 理解 
3D 世 界 ， 特 别 是 如 何 延 续 深 度 学 习 技术 在 3D 视 沉 问 题 上 的 表现 受到 了 越 来 越 多 的 研究 人 
RHE. SDA TEBE AANA RH, MA z (Point Cloud) 、 网 格 (Mesh) 等 。 
每 种 类 型 的 数据 部 有 其 自 员 的 结构 特性 ， 这 些 结构 特性 给 深 破 模型 的 架构 设计 囊 来 了 挑 
战 。 本 节 我 们 来 介绍 其 中 最 上 其 代表 性 的 点 云 数据 的 学 习 。 扣 云 数 据 是 一 种 有 效 的 三 维 物 体 
的 表示 方法 ， 它 随 看 深度 感知 技术 ， 比 如 微软 的 Kinect 以 及 油光 探 训 与 测量 技术 的 友 展 而 
流行 起 来 。 扣 云 数 据 由 一 组 点 组 成 ， 每 个 点 部 记录 有 三 维 坐标 “x，y，z) ， 除 此 之 外 ， 
还 可 以 记录 采集 点 的 磊 色 、 强 度 等 其 他 丰富 的 信息 ， 因 此 ， 蜗 精度 的 点 云 数据 可 以 很 好 地 
还 原 现实 世界 ， 被 广泛 应 用 于 无 人 和 敬 驶 、 体 感 游戏 、 文 化 数字 遗产 休 护 、 医 疗 、 城 市 规 
划 、 农 林业 等 各 个 领域 。 


对 扣 云 数据 的 理解 包含 几 个 关键 步 召 ， 即 点 云 分 类 、 扣 云 语义 分 割 、 扩 云 场景 分 析 。 
扩 云 分 类 很 好 理解 ， 即 给 定 一 组 点 云 ， 计 算 机 项 要 识别 这 组 点 云 到 懈 插 绘 的 是 什么 物体 ， 
是 台灯 、 困 子 还 是 椅子 ? MI Co ORES Ae EB, EU ED OP A, 
如 何 分 割 出 加 面 、 虹 腿 等 ， 如 图 10-1 所 示 。 扣 云 场景 分 析 需 要 更 进一步 的 学 习 和 和 分析， 给 
定 一 个 场景 ， 比 如 东 个 房间 内 的 点 云 数 据 ， 如 何 目 动 识别 或 匹配 出 场面 、 灯 、 果 于、 森 
子 、 窗 户 等 不 同 物体 ， 其 至 进一步 通过 这 些 物 体 摆 放 的 空间 位 置 ， 推 关 出 这 个 房间 到 展 是 


办 公 室 还 是 教室 。 
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图 10-1 点 云 分 割 示 意图 [8 


点 云 数 据 同 图 数据 一 样 ， 征 一 种 非 规 则 续 构 的 数据 ， 点 与 点 之 间 的 排列 也 没有 顺序 ， 


IX AF PUTE AM hit, UD FS EK STA END EAR Pd 28 TH, EH 9S il] BA ZS AOR, AN 
图 数据 的 相似 性 也 局 友 了 GNN 柑 型 在 其 中 的 应 用 。 


在 GNN 补 应 用 到 点 云 数 据 处 理 之 前 ， 一 种 解决 思路 是 将 点 云 强制 表示 为 体 元 
(voxel) ， 这 样 束 得 到 与 图 像 类 似 的 一 各 三维 规则 结构 ， 以 便 进 行 郑 积 和 池 化 操作 。 但 
这 种 处 理 方式 会 使 得 数据 量 剧 增 ， 并 且 会 产生 很 大 的 数据 见 余 ， 计 算 开 销 非 常 大 。 为 一 种 
解决 思路 是 将 点 云 转换 为 多 视觉 图 (Multi-view Images) ， 即 一 组 虚拟 的 二 维 快照 ， 生 成 
RGB 和 包含 几何 特征 的 合成 视图 ， 然 后 在 图 像 处 理 完毕 后 再 将 其 语义 分 段 投影 回 原始 的 
点 云 数 据 趾 。 这 种 方法 并 不 能 捕捉 3D 点 云 的 内 在 结构 ， 因 而 识别 性 能 有 限 。 实 际 上 ， 这 
两 种 曲线 救国 的 方法 都 会 造成 信息 的 丢失 或 者 数据 的 元 余 ， 且 转换 过 程 复 杂 上 度 高 ， 对 于 大 
规模 的 点 云 数 据 处 理 和 点 云 理解 都 无 法 适应 。 


图 大 积 拉 术 的 友 展 极 大 地 推动 了 后 云 的 处 理 方 法 的 进步 ， 人 们 提出 了 很 多 基于 GNN 
的 方法 ， 在 后 云 分 类 、 分 割 每 问题 上 展现 了 优异 的 性 能 。 这 里 以 近年 来 提出 的 典型 GNN 
模型 为 例 ， 半 述 GNN 技 术 在 应 用 于 点 云 这 种 非 结 构 化 数据 时 的 关键 步骤 。 


点 云 数 据 中 的 点 是 离散 存在 的 ， 点 与 点 间 的 距离 4 是 确定 点 彼此 之 间 关 系 的 基础 。 基 
于 点 坐标 (x, y, 2 的 欧式 空间 距离 是 一 种 常见 的 选择 ， 其 他 非 欧 式 空 间 的 距离 选择 如 
Wut, (geodesic) 距离 、 形 状 感 知 距 离 等 ， 可 以 很 好 地 处 理 非 刚性 特征 ， 也 被 很 多 研究 者 
应 用 ， 如 Charles R.Qi 等 人 (2017) 提出 的 PointNet++ 算 法 101。 


有 了 距离 即 可 确定 点 与 点 之 间 的 邻接 关系 。 如 何 将 距离 转化 成 邻接 关系 ， 成 为 运用 
GNN 技 术 的 一 个 关键 点 。 通 第 我 们 需要 定义 邻 域 ， 每 个 点 都 与 其 邻 域 范 围 内 的 点 相连 ， 
而 与 邻 域 以 外 的 点 无 邻接 关系 。 邻 域 范 围 可 以 根据 K 最 近邻 法 (K nearest neighbor) fff 
定 ， 也 可 以 根据 球 答 询 〈 洛 某 半 径 范 围 的 球状 区 域内 的 所 有 点 ) ME. BIRERE, A 
之 间 的 邻接 关系 在 每 一 层 的 图 中 并 不 是 固定 不 变 的 。PointNet++ 算 法 中 采用 了 每 一 层 固定 
邻 域 点 进行 卷 积 操作 的 策略 ， 而 在 Edge-Conv 的 算法 5 中， 每 一 层 中 的 图 都 可 以 动态 地 调 
整 图 中 节点 之 加 的 邻接 关系 ，K 邻 域内 的 点 随 关 网络 的 更 新 发 生变 化 ， 这 样 束 能 目 适应 地 
捕捉 和 更 狐 点 云 的 局 部 几何 特征 ， 在 点 云 分 类 和 分 割 中 取得 很 好 的 效果 。 


邻接 关系 确定 后 的 另 一 个 关键 步骤 是 基于 邻接 边 的 卷 积 该 如 何 实现 。 如 图 10-2 所 示 ， 
定义 ej=he (x x) 为 点 w 和 点 w 间 的 边 ， 其 中 he 为 含有 可 学 习 参 数 @ 的 非 线性 函数 。 














10-2 ” 边 卷 积 示 意图 


以 节点 Vi 为 中 心 的 卷 积 计算 如 式 〈10.1) TAS: 


X i` Agg ho (X;, X;) ( 10.1 ) 


x ,EN (x; ) 
PointNet++#lAtzmon*: (2018) 提出 的 PCNN 方 法 1 采用 ho (Xp x iio 的 方 


式 ， 即 卷 积 值 通 过 对 邻居 进行 聚合 得 到 。 若 以 9= Op o Do 表示 卷 积 滤波 矩阵 的 权 
重 ， 以 PCNN 算 法 为 例 ， 卷 积 的 计算 如 式 〈10.2) 所 示 : 


X'm = Dho (x)e(d(x, x)) ( 10.2) 


其 中 ，g 表 示 高 斯 核 函 数 ，d Cy x) 表示 点 v 和 vj 之 间 的 距离 ， 与 节点 的 特征 相关 。 
而 Edge-Conv 算 法 中 采用 的 则 是 非 对 称 方程 ”ee 0) 5 Boe X), 








可 以 看 到 点 云 数据 中 的 卷 积 定义 与 GNN 如 出 一 糙 。 通 币 来 说 ， 借 型 的 输入 是 点 云 数 
据 的 三 维 坐标 值 Cx, y, z), AERAR EN”, NÆRAA DA HA a ARIE m 
ZO ISB EEE o PROT RMS, EAERI ESA RR TARK, AE 
输出 值 是 天 于 类 列 的 标签 ， 属 于 图 层面 的 输出 。 假 设 判 定 集 有 K 个 类 别 ， 那 么 输出 为 K 维 
的 打分 同 量 。 对 于 扣 云 分 割 而 言 ， 和 需要 知 刀 每 个 点 云 属于 哪 一 部 分 ， 假 设 P 物 体 子 部 位 的 
数目 ， 因 此 模型 输出 为 NxP 维 的 打分 矩阵 ， 属 于 市 点 层面 的 输出 。 扣 云 分 类 侧重 于 学 习 数 
据 集 的 全 局 特征 ， 而 点 云 分 割 除了 竺 习 全 局 特征 以 外 ， 还 需要 结合 局 部 几何 特征 共同 得 
到 。 因 此 在 分 割 中 ， 点 云 网 络 中 局 部 关系 《邻接 关系 ) 的 定义 显得 更 为 重要 。 我 们 可 以 看 
Bl), WI AN TR) A AA HS RR), ET ERE I TIE A A IE PE AR ER 
AS EA BS A AH Ah BE A} TEL te OE HT R o 











10.2.2 ”基于 社交 网 络 的 推荐 系统 


登录 在 线 社区 ， 如 微 博 、 微 信 、 豆 瓣 、 大 众 氮 评 等 网 站 ， 已 经 成 为 现代 人 日 第 生活 中 
重要 的 一 部 分 。 在 这 些 网 络 平台 上 有 用户 可 以 查看 或 有 友 布 资讯 、 关 注 好 友 、 评 论 感 兴趣 的 文 
革 和 等。 为 用 户 推 荐 其 感 兴 趣 的 内 容 ， 一 方面 可 以 增加 网 站 的 活跃 度 ， 为 一 方面 也 可 以 帮助 
用 户 及 现 其 浴 在 关注 信息 、 增 强 用 户 秋 度 ， 当 然 基于 用 户 特 征 进行 广告 推荐 也 是 网 站 重要 
的 人 盘 利 方式 之 一 。 因 此 ， 建 立 有 效 的 推荐 模型 对 于 社交 网 站 的 运营 和 友 展 十 分 重要 。 


有 列 于 其 他 场景 下 的 推荐 应 用 ， 在 线 社 区 由 于 存在 显 式 的 用 户 社 交 网 络 信 息 ， 如 何 将 
这 部 分 信息 编 但 进 推荐 系统 是 一 个 十 分 关键 的 问题 。 总 的 来 说 ， 在 线 社 区 的 推荐 系统 建 模 
有 以 下 几 个 难点 : 其 一 ， 用 户 兴趣 有 长 期 兴趣 和 短期 兴趣 之 分 。 短 期 兴趣 本 喘 是 动态 变化 
的 ， 用 户 可 能 前 一 段 时 间 沉 类 于 明星 的 八卦 新 闻 ， 过 一 段 时 间 之 后 可 能 义 对 文学 或 是 电影 
兴趣 组 然 。 其 二 ， 用 户 会 受到 其 在 线 社区 疾 中 的 朋友 的 影响 (为 简化 表达 ， 这 里 把 用 户 在 
社区 网 络 中 建 并 了 社区 关系 (如 关注 ) 的 人 通称 为 "朋友 ”) 。 如 采用 户 A 的 朋友 是 体育 
迷 ， 经 单 肥 布 天 于 体育 喜事 、 体 育 明星 等 的 信息 ， 用 户 A 很 可 能 也 会 去 了 解 相 头 体育 主 题 
的 资讯 。 其 三 ， 社 区 网 络 对 用 户 兴趣 的 影响 并 非 固定 或 恒定 的 ， 而 是 根据 用 户 处 境 
Ccontext) 动态 变化 的 。 举 例 来 说 ， 用 户 在 听 音 乐 时 更 容易 受 平时 爱好 音乐 的 朋友 的 影 
员 ， 在 购 闫 电子 产品 时 更 容易 受 电子 友 烧 友 朋 友 的 影响 。 


下 面 以 文献 [13] 提 出 的 DGRFc 模 型 为 例 ， 阐 述 其 如 何 融 合 社交 网 络 信息 从 而 搭建 推荐 
系统 。 如 图 10-3 所 示 ， 该 方法 由 4 个 部 分 构成 : 
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图 10-3 DGRpc fe A] 


C1) 一 个 循环 神经 网 络 RNN 一 用 来 建 模 用 户 的 动态 兴趣 偏好 。 动 态 兴 趣 偏好 可 以 从 
用 户 在 当前 会 话 〈session) 中 己 消 费 的 项 目 Citem) 序列 中 获取 。 比 如 ， 当 用 户 在 一 次 会 
话 中 接连 购买 了 对 子 、 外 套 等 商品 ， 那 么 明显 用 户 此 时 的 购物 偏好 为 衣物 类 型 ， 这 种 动态 
的 兴趣 伺 好 会 极 大 地 影 啊 用 户 下 一 次 的 消费 行为 。 





(2) FA HA ACES Xs ht FS a SE TR FT i IF Sad IZA TTT Mo TR SE 
RURY ASAP Rare ERT EY DAO A PET RATT OR es 短期 兴趣 爱 
OF VU SBR “SAP ES CS NRE 的 兴趣 深 移 ， 可 以 使 用 RNN 建 模 近 期 
消费 的 项 目 序列 来 表示 。 


(3) 一 个 图 注音 力 网 络 GAT 一 用 来 建 模 用 户 的 动态 兴趣 仿 好 与 朋友 的 兴趣 仿 好 的 交 
互 模式 ， 这 是 该 方法 最 为 天 键 的 一 个 部 分 ， 目 适应 地 学 习 出 了 社区 网 络 对 用 户 消费 行为 的 
影响 的 表示 癌 量 。 上 面 所 到 过 ， 用 户 实际 的 消费 行为 不 仅 受 到 朋 肥 的 影响 ， 还 依据 用 户 处 
境 受 到 不 同 朋 到 不 同 权 重 的 影响 。 因 此 ， 使 用 一 个 基于 注意 为 机制 的 GAT 模 型 ， 可 以 很 
好 地 捕捉 上 述 两 层 影响 因素 ， 对 社交 网 络 信息 做 到 一 种 目 适 应 的 刻画 。 


(4) 用户 下 一 步 的 请 费 行 为 由 用 户 动态 兴趣 俩 好 与 社区 网 络 影响 两 部 分 信息 综合 次 
定 。 通 过 对 〈1) . (3) 两 个 部 分 的 输出 进行 组 合 从 而 得 到 用 户 的 表示 ， 然 后 和 其 他 的 推 
荐 方法 一 样 ， 由 用 户 -项 目 对 的 信息 进行 DGREc 模 型 的 端 对 端 训 练 。 在 本 文 的 实验 部 分 ， 
作者 将 DGREc 模 型 在 豆瓣 小 、Delicioust 直 、Yelpti 等 网 络 平台 的 数据 集 上 进行 实验 ， 均 取 
得 了 当下 最 好 效果 。 同 时 作者 也 设计 实验 证 明了 GAT 对 于 效果 提升 的 必要 性 。 


值得 一 提 的 是 ， 有 研究 者 指出 ， 不 仪 用 尸 之 间 的 关系 在 推荐 效果 中 起 看 较 大 作用 ， 锌 
推荐 项 目 之 间 的 关系 同样 有 影响 。 例 如 ， 外 套 和 鞋子 之 间 的 关系 束 比 外 套 和 化 盆 乙 间 的 天 
系 更 强 ， 这 种 项 目 之 间 的 内 在 关系 也 对 用 户 消费 行为 的 推 存 起 作用 。 基 于 此 ， 文 献 [14] 提 
出 用 双 图 注意 力 网 络 蛋 型 来 同时 建 模 用 户 与 用 户 、 项 目 与 项 目 之 间 的 双重 网 络 效应 ， 以 此 
捕 欣 更 加 全 面 的 关系 信息 从 而 提升 推荐 系统 的 效 末 。 

















[1] Song W, Xiao Z, Wang Y, et al.Session-based social recommendation via dynamic graph 
attention networks[C]//Proceedings of the Twelfth ACM International Conference on Web 
Search and Data Mining.ACM, 2019: 555-563. 

[2] https://www.douban.com/. 

[3] https://grouplens.org/datasets/hetrec-2011/. 

[4] https://www.yelp.com/dataset. 


10.2.3 ”视觉 推理 


推理 是 人 闫 具有 的 高 阶 能 力 ， 是 人 关 智 能 中 很 重要 的 部 分 ， 如 何 让 计算 机 拥有 推理 能 
力 是 人 工 镶 能 领域 的 一 项 重要 诛 题 。 


以 视 党 领域 为 例 ， 尽 管 郑 积 神 经 网 络 等 模型 取得 了 极 大 的 成 功 ， 但 是 仍 不 有 共 备 复杂 推 
理 的 能 力 ， 比 如 图 10-4 中 ， 需 要 判断 葛 色 方 框 的 目标 是 什么 ， 人 类 在 看 到 这 幅 图 像 的 时 
候 ， 根 据 图 中 的 棒球 棱 、 人 物 的 姿态 ， 首 先 会 得 出 这 张 图 在 描述 打 棒 球 的 结论 ， 然 后 以 此 
PURGE » ATE ER HIR ARSE TSA YES AS SS aS BT HE TF RR TK 
因此 可 以 推断 出 葛 色 区 域 为 棒球 手套 。 MET EEIT ARAT W, RR T TE 
Hae TA 获得 的 层次 化 特征 之 外 ， 无 法 通过 图 像 的 语义 信息 来 准确 推理 出 音色 区 域 
目标 。 


文献 [15] 为 了 解决 上 述 局 限 ， 提 出 了 一 个 融合 了 空间 信息 和 语义 信息 的 迭 代 却 视 禹 推 
ERR. ETRA NNA URIK, 一 个 是 在 卷 积 网 络 的 基础 上 引入 了 记忆 机 制 的 局 部 扒 
理 模 块 ， 为 一 个 是 融合 了 空间 和 语义 信息 的 全 局 推理 模块 。 整 体 的 推理 框 染 如 图 10-5 所 
不 。 





大 10-4“ 蓝 色 框 内 的 目标 是 什么 ? 吕 


AEE 


' grass 
image + region Inputs reasoning modules iterations attention-based prediction 


图 10-5 “推理 框架 结构 图 


局 部 推理 便 块 以 记忆 和 蛋 块 $ 作 为 输入 进行 预 出 ， 其 中 记忆 模块 S$ 用 来 存储 通过 吞 积 网 
络 近 取 的 目标 区 域 的 位 置 特征 和 图 像 特征 。 


全 局 推理 模块 主要 基于 空间 特征 和 语义 特征 进行 推理 。 空 间 指 的 是 建立 位 置 上 不 相 令 h 
区 域 的 联系 ; 语义 指 的 是 利用 外 部 的 知识 库 建立 类 列 与 类 列 之 间 的 联系 。 为 了 综合 利用 这 
两 个 方面 的 信息 ， 采 用 GNN 作 为 推理 模块 。 图 的 构成 使 用 了 两 种 类 型 的 节操 ， 一 个 是 由 
所 有 的 区 域 组 成 的 区 域 市 皮 ， 为 一 种 是 以 所 有 区 域 对 应 的 实体 作为 市 上 尽 。 市 扩 与 节 扩 之 间 
的 边 通 过 如 下 3 种 关系 建立 ， 第 一 种 是 区 域 与 区 域 之 间 通 过 它们 的 距离 关系 进行 天 联 ， 边 
的 权 章 由 像 系 距离 的 核 函 数 归 一 化 值 决 是 ; 男 外 对 于 有 童车 的 区 域 ， 退 过 IoU 值 建立 它们 
之 间 的 关系。 第 二 种 是 区 域 与 实体 之 间 的 关系 ， 根 据 对 区 域 预 出 的 概率 分 布 (softmax 输 
出 )， 建 立 与 实体 之 间 的 关系， 边 的 权重 为 对 应 的 概率 值 。 第 三 种 是 实体 与 实体 之 间 的 天 
系 ， 这 个 关系 来 目 外 部 的 知识 图 详 ， 可 以 将 多 种 实体 关系 考虑 进来 ， 比 如 类 别 从 属 关 系 、 
部 件 从 属 关 系 〈 腿 和 椅子 ) 、 单 复数 关系 、 水 平 对 称 关 系 等 。 


以 上 面 构建 的 图 为 基础 ， 使 用 GNN 来 进行 推理 ， 区 域 证 把 的 特征 来 目 蔡 积 网 络 ， 实 
体 闻 后 的 特征 来 目 预 训练 的 词 辐 量 。GNN 推 理 是 为 了 融合 空间 信息 和 语义 信息 对 区 域 进 
行 推 理 ， 因 此 使 用 了 两 条 推理 路 人 径 。 一 条 是 区 域 一 区 域 ， 它 辊 合 多 个 区 域 的 特征 以 得 到 空 
BRIE: 力 一 条 是 区 域 一 实体 一 实体 ， 它 分 为 两 步 ， 先 将 区 域 的 特征 聚合 到 实体 节操 并 与 
实体 市 点 特征 融合 ， 然 后 对 不 同类 型 的 实体 关系 进行 聚合 得 到 实体 的 特征 ， 这 对 应 看 语义 
关系 。 为 了 得 到 区 域 的 最 终 特 征 ， 通 过 实体 一 区 域 的 关系， 将 实体 携 市 的 语义 特征 聚合 到 
区 域 证 所 上 ， 并 与 第 一 条 推理 路 径 中 得 到 的 空间 特征 进行 融合 。 整 个 过 程 如 图 10-6 所 示 。 
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图 10-6 “全 局 推理 模块 示意 图 加 


推理 通常 不 是 一 步 到 位 的 ， 而 是 迭代 式 的 。 为 了 将 前 一 轮 的 信息 传递 到 后 一 轮 ， 可 以 
使 用 记忆 模块 ， 局 部 推理 和 全 局 推理 使 用 不 同 的 记忆 模块 和 M， 每 次 从 代 得 到 的 输出 用 
于 更 新 记忆 模块 。 另 外 ， 模 型 还 引入 了 注意 力 机 制 ， 以 便 融 合 当前 预测 值 与 来 目 其 他 友 代 
模型 在 不 同 的 训练 数据 集 上 进行 试验 ， 将 识别 效果 对 比 卷 积 神经 网 络 
Ke 3.7%~8.4%. 


[1] 图 片 来 源 : https://es.calcuworld.com/cuantos/cuanto-dura-un-partido-de-beisbol/. 

[2] Chen X, Li L J, Fei-Fei L, et al.lterative visual reasoning beyond 
convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern 
Recognition.2018: 7239-7248. 

[3] Chen X, Li L J, Fei-Fei L, et al.Iterative visual reasoning beyond 
convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern 
Recognition.2018: 7239-7248. 


10.3 ”GNN 的 未 来 展望 


作为 一 种 新 兴 的 神经 网 络 技术 ，GNN 的 快速 及 展 离 不 开 近 些 年 深度 学 习 在 各 方面 的 
和 章 要 积 次 。 而 与 GNN 的 结合 ， 可 以 助力 深度 学 习 系 统 拓 展 其 在 更 广 领 域 、 更 多 层面 的 场 
景 任务 中 获得 成 功 。 我 们 非 沼 确信 在 未 来 几 年 ，GNN 会 在 越 来 越 多 的 场景 下 得 到 应 用 。 


接 下 来 ， 我 们 从 3 个 方面 总 结对 GNN 的 未 来 研究 的 展望 。 当 然 以 下 观点 仅 供 参 考 ， 访 
者 朋友 也 应 有 目 己 的 思考 。 


1. 充 分 适应 复杂 多 变 的 图 数据 


一 方面 ， 图 数据 的 类 型 极其 繁杂 ， 如 关系 经 常 发 生变 化 的 动态 图 、 一 条 边 连接 两 个 以 
上 节点 的 超 图 ， 这 些 图 数据 的 结构 更 加 复杂 ， 需 要 GNN 进 行 针对 性 的 设计 。 另 一 方面 ， 
GNN 人 对 异 构图 与 属性 图 还 和 要 进行 更 充分 的 研究 与 设计 ， 以 学 习 其 中 丰富 多 样 的 语义 


2. 在 更 多 推理 任务 上 的 应 用 与 学 习 机 制 的 研究 改进 


推理 任务 已 经 成 为 当下 深度 学 习 系 统 面 临 的 核心 任务 之 一 ， 里 然 GNN 已 经 展现 出 了 
在 相关 任务 上 的 独特 优势 ， 但 是 内 在 的 作用 机 理 还 有 竺 区 分 研究 。 通 过 对 其 学 习 机 制 的 不 
汤 完 辫 与 肥 展 ， 来 促使 GNN 在 更 多 、 更 复 洒 的 推理 任务 中 获得 更 好 的 表现 。 


3. 对 超大 规模 图 建 模 的 文 持 


现 有 的 大 多 数 疼 神经 网 络 都 无 法 扩展 到 规模 巨大 的 岁数 据 中 去 。GNN 的 训练 是 一 种 
协同 的 学 习 方 式 ， 在 一 次 达 代 中 ， 市 扣 回 有 的 上 下 文 会 导 任 其 状态 的 更 狐 需 要 涉及 大 量 令 
大 市 点 的 隐 蕊 状态 ， 复 林 度 极品 ， 难 以 应 用 小 批量 训练 方式 提升 计算 效率 。 尺 官 已 有 研究 
提出 基于 抽样 与 分 区 的 手段 来 解决 这 类 问题 ， 但 这 些 手段 仍 不 足以 扩展 到 工业 级 超大 规模 
属性 图 的 学 习 中 去 。 
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实数 集 
大 写字 和 母 表示 和 矩阵 或 张 量 
分 别 表示 和 矩阵 疗 的 第 i 个 行 向 量 和 第 j 个 列 向 量 
XER iT, 第 j 列 的 值 
小 写 黑 体 表 示 辣 量 


分 别 表示 第 i 个 节点 以 及 vw 与 v5 之 问 的 边 
TA vi 的 邻居 节点 的 集合 
拉 普 拉 斯 矩阵 
邻接 和 矩阵 
FEFE PE 
对 角 和 矩阵 ， 非 对 角 处 值 全 为 0 
单位 矩阵 ， 也 是 对 角 和 矩阵 ， 对 角 处 值 全 为 1 
珊 目 连接 的 邻接 和 矩 阵 ， 即 4 = 4+7， 工 同 理 
归 一 化 后 的 拉 普 拉 斯 矩阵 ， 即 ,= DAD" 


